机器学习之异常点检测

爱爬山的小python

于 2023-07-27 20:57:16 发布

阅读量75

点赞数

文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/weixin_39421198/article/details/131968450

版权

机器学习之异常点检测

参考链接：

scikit-learn官网 https://scikit-learn.org/stable/modules/classes.html
scikit-learn中文手册https://sklearn.apachecn.org/docs/master/30.html
分类回归方法介绍https://www.cnblogs.com/qiuyuyu/p/11399697.html

IsolationForest和LOF效果比较好

许多应用程序需要能够对新观测值(observation 译注:观测到的样本的值 )进行判断，判断其是否与现有观测值服从同一分布(即新观测值为内围点(inlier))，相反则被认为不服从同一分布(即新观测值为离群点(outlier))。通常，这种能力被用于清理真实数据集, 但它有两种重要区分:

离群点检测: 训练数据包含离群点,即远离其它内围点。离群点检测估计器会尝试拟合出训练数据中内围点聚集的区域, 会忽略有偏离的观测值。
新奇点检测: 训练数据未被离群点污染，我们对新观测值是否为离群点感兴趣。在这个语境下，离群点被认为是新奇点。

离群点检测和新奇点检测都被用于异常检测, 所谓异常检测就是检测反常的观测值或不平常的观测值。离群点检测也被称之为无监督异常检测; 而新奇点检测被称之为半监督异常检测。在离群点检测的语境下, 离群点/异常点不能够形成一个稠密的聚类簇，因为可用的估计器都假定了离群点/异常点位于低密度区域。相反的，在新奇点检测的语境下，新奇点/异常点是可以形成稠密聚类簇的，只要它们在训练数据的一个低密度区域，这被认为是正常的。

1. EllipticEnvelope¶

假定了数据是服从高斯分布的且要学习一个椭圆(ellipse)

import numpy as np
from sklearn.covariance import EllipticEnvelope
true_cov = np.array([[.8, .3],
                     [.3, .4]])
X = np.random.RandomState(0).multivariate_normal(mean=[0, 0],
                                                 cov=true_cov,
                                                 size=500)
cov = EllipticEnvelope(random_state=0).fit(X)
# predict returns 1 for an inlier and -1 for an outlier
cov.predict([[0, 0],
             [3, 3]])

cov.covariance_


cov.location_

2. OneClassSVM

对离群点本来就很敏感，因此在离群点检测中表现的不是很好(译注: 这里的敏感应该指的是会把离群点划到决策边界内)

from sklearn.svm import OneClassSVM
X = [[0], [0.44], [0.45], [0.46], [1]]
clf = OneClassSVM(gamma='auto').fit(X)
clf.predict(X)

clf.score_samples(X)

3.IsolationForest

在高维数据集中实现离群点检测的一种有效方法是使用随机森林。ensemble.IsolationForest 通过随机选择一个特征,然后随机选择所选特征的最大值和最小值之间的分割值来"隔离"观测。

由于递归划分可以由树形结构表示，因此隔离样本所需的分割次数等同于从根节点到终止节点的路径长度。

在这样的随机树的森林中取平均的路径长度是数据正态性和我们的决策功能的量度。

随机划分能为异常观测产生明显的较短路径。因此，当随机树的森林共同地为特定样本产生较短的路径长度时，这些样本就很有可能是异常的。

from sklearn.ensemble import IsolationForest
X = [[-1.1], [0.3], [0.5], [100]]
clf = IsolationForest(random_state=

最低0.47元/天解锁文章

爱爬山的小python

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
机器学习之异常点检测

欢迎关注和星标《菜J数据分析》，和菜哥一起学习Python、数据分析、机器学习和深度学习！
复制链接

扫一扫