孤立森林算法 python_古老的spc也可以用机器学习(二)-孤立森林算法

算法原理

iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。

作为传统SPC异常检测中的一个非常不错的补充,特别是针对有子组的情况下异常检测更灵敏。

iForest 适用与连续数据(Continuous numerical data)的异常检测,将异常定义为“容易被孤立的离群点 (more likely to be separated)”——可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因而可以认为落在这些区域里的数据是异常的。

黑色的点为异常点,白色点为正常的点(在一个簇中)。iForest检测到的异常边界为红色,它可以正确地检测到所有黑点异常点。

算法步骤

用ensemble的方法来得到一个收敛值(蒙特卡洛方法),即反复从头开始切,然后平均每次切的结果。iForest 由t个iTree(Isolation Tree)孤立树 组成,每个iTree是一个二叉树结构,其实现步骤如下:从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点。

机指定一个维度(attribute),在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间。

3以此切割点生成了一个超平面,然后将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子。

4在孩子节点中递归步骤2和3,不断构造新的孩子节点,直到 孩子节点中只有一个数据(无法再继续切割) 或 孩子节点已到达限定高度 。

孤立森林Python实现算法如下:

1、导入模块和算法拟合

from sklearn.ensemble import IsolationForest

import pandas as pd

y=[470,509,500,511,435,489,483,483,482,483,504,472,464,481,501,581,507,558,569,467,382,464,482,474,482,478,477,536,485,502,489,507,432,507,470,482,485,482,505,470,487,476]

y = pd.DataFrame(y)

# fit the model

clf = IsolationForest(contamination=0.05)

clf.fit(y)

上面算法中的参数contamination=0.05表示占总数的5%为异常

1、导入模块和算法拟合

y['fcst'] = clf.predict(y)

label0 = y[y.fcst==1]['fcst'].count()

label1 = y[y.fcst==-1]['fcst'].count()

if label0>label1:#正常的多

y.loc[y['fcst'] == 1, 'isAbnormal'] = 0

y.loc[y['fcst'] == -1, 'isAbnormal'] = 1

else:

y.loc[y['fcst'] == 1, 'isAbnormal'] = 1

y.loc[y['fcst'] == -1, 'isAbnormal'] = 0

y.columns = ['data','fcst','isAbnormal']

y['isAbnormal']=y['isAbnormal'].astype(int)

y = y[['data','isAbnormal']]

字段fcst记录了预测的分类结果,有两个分类-1和1,-1的是异常值,为了我们的结果的通用是,0表示正常,1表示异常,上面的代码进行转换,默认多的分类是正常,少的分类是异常。

结果如下:

至此,我们已经完成了一种机器学习(孤立森林算法)的异常检测。

SPC系统实现:

接下来看看我们在SPC系统上的实现。

我们把孤立森林算法得到的异常点,直接显示在SPC控制图上,请看下图。也可以选择不显示。

这样我们就可以在SPC控制图上显示其他异常判定算法的异常判定结果了。现在知道机器学习怎么和SPC结合在一起如何使用了吧。

如果你想了解上面的功能的测试,

下方链接可以在线体验和上图完成一样的功能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值