2019年07月_小金子的夏天

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创机器学习中 L1 和 L2 正则化的直观解释

机器学习中，如果参数过多，模型过于复杂，容易造成过拟合（overfit）。即模型在训练样本数据上表现的很好，但在实际测试样本上表现的较差，不具备良好的泛化能力。为了避免过拟合，最常用的一种方法是使用使用正则化，例如 L1 和 L2 正则化。但是，正则化项是如何得来的？其背后的数学原理是什么？L1 正则化和 L2 正则化之间有何区别？L1会使得某些参数为0，具有稀疏性，而L2没有这个功能，使得参数的...

2019-07-31 09:26:33 325

原创 python函数重载/函数通过接受的参数不同执行不同功能

#python 的函数重载功能不太好用，通过判断传入参数的不同执行不同功能pa = { "params":{ "name":"wangyoujin294", "age": 18 }, "params2":{ "name":"wan...

2019-07-29 13:58:31 1418

原创机器学习算法性能评测指标

ROC/AUChttps://blog.csdn.net/YE1215172385/article/details/794485751、roc曲线：接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴：负正类率(false postive rate FPR)特异度，划分实例中所有负例占所有负例的比例；(...

2019-07-29 09:56:30 308

原创 Keras介绍

Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生，能够把你的idea迅速转换为结果，如果你有如下需求，请选择Keras：简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性）支持CNN和RNN，或二者的结合无缝CPU和GPU切换Keras的设计原则用户友...

2019-07-26 20:20:03 5775

原创机器学习特征提取

特征提取：从原有属性中选择一个子集，达到降维目的。原文：https://blog.csdn.net/mr_tyting/article/details/73413979其中第一种过滤型很少使用。特征选择思想简介先大概讲讲上面三种方法思想：过滤型变量排序就是一种典型的过滤式方法，该方法独立于后续要使用的模型。这种方法的关键就是找到一种能度量特征重要性的方法，...

2019-07-26 20:07:14 1197

原创主成分分析（PCA）原理详解

1.相关背景在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性。如果分别对每个指标进行分析，分析往往是孤立的，不能完全利用数据中的信息，因此盲目减少指标会损失很多有用的信息，从而产...

2019-07-26 20:02:33 1948

原创孤立森林(Isolation Forest)-python实例

两个实例：1.来自于 sklearn官网 2.自己构造数据，在第二个例子中发现，dbscan认为的的异常包含在itree认为异常中，也就是说itree，会给出一个异常的排序，需要看到这个顺序（后面再做）例子1：import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import IsolationFor...

2019-07-24 16:57:48 8028

原创机器学习 - 异常检测算法之孤立森林(Isolation Forest)

参考：https://blog.csdn.net/extremebingo/article/details/80108247背景现有的异常检测方法:通过对正常样本的描述，给出一个正常样本在特征空间中的区域，对于不在这个区域中的样本，视为异常。这些方法的主要缺点是，异常检测器只会对正常样本的描述做优化，而不会对异常样本的描述做优化，这样就有可能造成大量的误报，或者只检测到少量的异常。异...

2019-07-24 14:02:29 2428

原创【转】异常检测的N种方法，阿里工程师都盘出来了

阿里妹导读：互联网黑产盛行，其作弊手段层出不穷，导致广告效果降低，APP推广成本暴增。精准识别作弊是互联网公司和广告主的殷切期望。今天我们将从时间序列、统计、距离、线性方法、分布、树、图、行为序列、有监督机器学习和深度学习模型等多个角度探讨异常检测。作者 | 黎伟斌、胡熠、王皓背景异常点检测(Outlier detection)，又称为离群点检测，是找出与预期对象的行...

2019-07-24 10:58:46 589

原创机器学习 - 异常检测算法之检测异常点击流

修改自：https://blog.csdn.net/mergerly/article/details/77985089本文内容是我学习ML时做的一个练手项目，描述应用机器学习的一般步骤。该项目的目标是从点击流数据中找出恶意用户的请求。点击流数据长下图这样子，包括请求时间、IP、平台等特征：该项目从开始做到阶段性完成，大致可分为两个阶段：算法选择和工程优化。算法选择阶段挑选合适的ML模型...

2019-07-24 10:52:52 831

原创机器学习 - 异常检测算法之概率分布和孤立森林

0.引言异常检测应用在工业检测、账户行为监测等领域。问题特点：样本比例高度不均衡，异常点总是极少数的；异常样本子集一般不具备共性的特征，异常的方式各不相同，难以作为一个类别分类高维数据中，并非所有的样本都会用到，需要特征选择；由于样本高度不平衡，因此测试的指标往往用F1；异常检测问题，往往更多使用无监督的算法建模，再结合标定的验证集用于切阈值。异常检测的两类常用方法：...

2019-07-24 10:07:04 854

原创 python 实现redis发布订阅功能

Redis发布订阅(pub/sub)是一种消息通信模式：发送者(pub)发送消息，订阅者(sub)接收消息。Redis 发布订阅(pub/sub)实现了消息系统，发送者(在redis术语中称为发布者)在接收者(订阅者)接收消息时发送消息。传送消息的链路称为信道。在Redis中，客户端可以订阅任意数量的信道。发布端代码：from redis import StrictRedis,Co...

2019-07-23 09:40:57 711

原创 python 的json与词典格式互换

python中json文件处理涉及的四个函数json.dumps()和json.loads()、json.dump()和json.load()的区分1、json.dumps()和json.loads()是json格式处理函数（可以这么理解，json是字符串）　　(1)json.dumps()函数是将一个Python数据类型列表进行json格式的编码（可以这么理解，json.dumps(...

2019-07-18 09:25:52 259

原创 Redis数据类型

edis是一个开源，高级的键值存储和一个适用的解决方案，用于构建高性能，可扩展的Web应用程序。Redis有三个主要特点，使它优越于其它键值数据存储系统 -Redis将其数据库完全保存在内存中，仅使用磁盘进行持久化。与其它键值数据存储相比，Redis有一组相对丰富的数据类型。 Redis可以将数据复制到任意数量的从机中。Redis的优点以下是Redis的一些优点。异常快 -...

2019-07-18 09:02:01 307

原创 pandas时间序列的生成

时间序列Pandas为时间序列数据的工作时间提供了一个强大的工具，尤其是在金融领域。在处理时间序列数据时，我们经常遇到以下情况 -生成时间序列将时间序列转换为不同的频率Pandas提供了一个相对紧凑和自包含的工具来执行上述任务。获取当前时间datetime.now()用于获取当前的日期和时间。import pandas as pdprint pd.datetime.n...

2019-07-11 14:04:54 3110

原创 Pandas级联（pandas对象合并连接到一个对象中）

Pandas提供了各种工具(功能)，可以轻松地将Series，DataFrame和Panel对象组合在一起。pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False)其中，objs - 这是Series，DataFrame或Panel对象的序列或映射。 axis - {0，1，...}，默认为0，这...

2019-07-11 13:28:43 587

原创 Pandas合并/连接（两个dataframe的筛选/合并）

Pandas具有功能全面的高性能内存中连接操作，与SQL等关系数据库非常相似。Pandas提供了一个单独的merge()函数，作为DataFrame对象之间所有标准数据库连接操作的入口 -pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index...

2019-07-11 11:00:26 13508

原创 Pandas分组（GroupBy）

任何分组(groupby)操作都涉及原始对象的以下操作之一。它们是 -分割对象应用一个函数结合的结果在许多情况下，我们将数据分成多个集合，并在每个子集上应用一些函数。在应用函数中，可以执行以下操作 -聚合 - 计算汇总统计转换 - 执行一些特定于组的操作过滤 - 在某些情况下丢弃数据下面来看看创建一个DataFrame对象并对其执行所有操作 -import pan...

2019-07-10 15:26:50 1427

原创 python groupby

from operator import itemgetter # itemgetter用来去dict中的key，省去了使用lambda函数from itertools import groupby # itertoold1={'name':'zhangsan','age':20,'country':'China'}d2={'name':'wangwu','age':19,'country...

2019-07-08 19:05:29 978

转载 Pandas缺失数据

原文出自【易百教程】，商业转载请联系作者获得授权，非商业转载请保留原文链接：https://www.yiibai.com/pandas/python_pandas_missing_data.html何时以及为什么数据丢失？想象一下有一个产品的在线调查。很多时候，人们不会分享与他们有关的所有信息。很少有人分享他们的经验，但不是他们使用产品多久; 很少有人分享使用产品的时间，经验，但不是...

2019-07-08 18:48:32 420

原创 Python操作Redis数据库

连接数据库StrictRedisfrom redis import StrictRedis# 使用默认方式连接到数据库redis = StrictRedis(host='localhost', port=6379, db=0)# 使用url方式连接到数据库redis = StrictRedis.from_url('redis://@localhost:6379/1')Co...

2019-07-08 18:06:51 300

原创 python 操作redis

1连接 Redisimport redisc连接方式：redis提供了2个方法1：StrictRedis：实现大部分官方的命令2：Redis：是StrictRedis的子类，用于向后兼容旧版的redis。官方推荐使用StrictRedis方法。举例（普通连接）： 1 2 3 4 5 6 7 8 9 ...

2019-07-08 18:05:03 519

原创 redis安装

linux安装redis 完整步骤安装：1.获取redis资源　　wget http://download.redis.io/releases/redis-4.0.8.tar.gz2.解压　　tar xzvf redis-4.0.8.tar.gz3.安装　　cd redis-4.0.8　　make　　cd src　　make install PREFIX=/...

2019-07-08 16:58:35 105

原创 cron表达式详解

Cron表达式是一个字符串，字符串以5或6个空格隔开，分为6或7个域，每一个域代表一个含义，Cron有如下两种语法格式：　　（1）Seconds Minutes Hours DayofMonth Month DayofWeek Year　　（2）Seconds Minutes Hours DayofMonth Month DayofWeek　　　　一、结构　　corn从左到右...

2019-07-03 18:15:23 309

原创 Pandas聚合

当有了滚动，扩展和ewm对象创建了以后，就有几种方法可以对数据执行聚合。DataFrame应用聚合让我们创建一个DataFrame并在其上应用聚合。import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(10, 4), index = pd.date_range('1/1/2019...

2019-07-03 13:42:03 195

原创 Pandas窗口函数

为了处理数字数据，Pandas提供了几个变体，如滚动，展开和指数移动窗口统计的权重。其中包括总和，均值，中位数，方差，协方差，相关性等。下来学习如何在DataFrame对象上应用上提及的每种方法。.rolling()函数这个函数可以应用于一系列数据。指定window=n参数并在其上应用适当的统计函数。import pandas as pdimport numpy as np...

2019-07-02 16:23:23 1945

原创 Pandas统计函数

统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数，可以将这些函数应用到Pandas的对象上。pct_change()函数系列，DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较，并计算变化百分比。import pandas as pdimport numpy as nps = pd.Series([1,2,3,4,...

2019-07-02 14:30:47 390

原创均值、方差、标准差、协方差

协方差的意义和计算公式学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。均值：标准差：方差：很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均...

2019-07-02 13:42:58 3440 1

lstm实例：基于lstm的DGA域名检测（python代码实例）

lstm实例：基于lstm的DGA域名检测（python代码实例） DGA(域名生成算法)是一种利用随机字符来生成C&C域名，从而逃避域名黑名单检测的技术手段。例如，一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com，如果我们的进程尝试其它建立连接，那么我们的机器就可能感染Cryptolocker勒索病毒。域名黑名单通常用于检测和阻断这些域的连接，但对于不断更新的DGA算法并不奏效。基于深度学习模型识别dga域名。

2023-07-26

syslogStructure.rar

python实现

2021-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人