anomaly detection
张博208
知识搬运工
展开
-
机器学习-异常检测算法(一):Isolation Forest
"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism." — D. M. Hawkins, Identif...转载 2018-05-13 17:30:29 · 5829 阅读 · 0 评论 -
Isolation Forest算法原理详解
本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。 或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://github.com/JeemyJohn/AnomalyDetection。前言 随着机器学...转载 2018-05-13 17:38:49 · 468 阅读 · 0 评论 -
异常点检测算法isolation forest的分布式实现
无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有现成的包,但是如果大数据的集群上跑的话,目前没有封装好的接口,给分布式任务的部署带来了很多不便(话说spark mllib中集成的算法真心太少了),本文用scala从头进行该算法在spark上的分布式实现,并演示任务在集群上的...转载 2018-05-13 17:51:57 · 1178 阅读 · 0 评论 -
机器学习-异常检测算法(二):Local Outlier Factor
Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et. al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBSCAN,OPTICS)。但是,基于统计的异常检测算法通常需要假设数据服从特定的概率分布,这个假设往...转载 2018-05-13 18:00:24 · 3501 阅读 · 0 评论 -
异常检测(三)——Local Outlier Factor(LOF)
在中等高维数据集上执行异常值检测的另一种有效方法是使用局部异常因子(Local Outlier Factor ,LOF)算法。1、算法思想LOF通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是:一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1,则该点所在位置的密度越小于其周围样本所在位置的密度,这个点就越有可能是异常点。关于密度等理论概念,详...转载 2018-05-13 18:03:22 · 4264 阅读 · 0 评论 -
机器学习-异常检测算法(三):Principal Component Analysis
Principal Component Analysis(PCA)是最常见的数据降维的方法。根据 Wikipedia 的介绍,它最早是由 Karl Pearson(同时也是卡方检验的发明者) 在1901年提出,到现在已经一百多年了。作为一种降维的方法,PCA可以将原数据进行线性变换,并找出数据中信息含量最大的主要成分,去除信息含量较低的成分,从而减少冗余,降低噪音。通常在异常检测的语境里,噪音(n...转载 2018-05-13 18:05:08 · 6106 阅读 · 2 评论 -
异常、离群点检测 一分类——OneClassSVM
OneClassSVM两个功能:异常值检测、解决极度不平衡数据因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM;OneClassSVM还有一个功能就是异常值检测。其他我的相关博客: 1、机器学习︱非平衡数据处理方式与评估 2、RFM模型+SOM聚类︱离群值筛选问题 3、R语言︱异常值检验、离群点分析、异常值处理台湾大学林智仁所设计和...转载 2018-07-04 16:28:04 · 3858 阅读 · 0 评论 -
sklearn中的异常检测方法
SKLEARN——Novelty and Outlier Detection简介 很多方法都可以检测一个新的检测样本,是符合当前样本分布的成员还是不一样的利群点。通常,这些方法被用来对真实数据集进行清洗。这些检测方法可以分为两种:novelty detection: The training data is not polluted by outliers, and we are inte...转载 2018-07-04 18:01:43 · 1641 阅读 · 0 评论