异常检测应用领域
- 故障检测
- 物联网异常检测
- 欺诈检测
- 工业异常检测
- 时间序列异常检测 Key
- 视频异常检测
- 日志异常检测
- 医疗日常检测
- 网络入侵检测
基本都是无监督学习,不需要y。
传统方法
- 基于统计学
假设数据服从某个分布,比如高斯分布,然后根据样本,运用极大似然估计求出分布的参数,然后把低概率区域的样本认为是异常值 - PCA主成分分析方法
- 基于相似度的方法
- 基于cluster簇的方法,如DBSCAN聚类算法。
- knn聚类算法
- 基于密度的LOF
以上方法对超参数的选择非常敏感,但是比较简单
集成方法
- feature bagging
- 孤立森林(周志华提出)
孤立森林假设我们用一个随机超平面来切割数据空间,切一次可以生成两个子空间。然后我们继续用随
机超平面来切割每个子空间并循环,直到每个子空间只有一个数据点为止。直观上来讲,那些具有高密
度的簇需要被切很多次才会将其分离,而那些低密度的点很快就被单独分配到一个子空间了。孤立森林
认为这些很快被孤立的点就是异常点
机器学习的分类方法
Note:异常检测往往是不平衡分类问题,这时候需要类似于F1score去评估分类模型,而不是单纯的accuracy。另一个思路是用数据增强data augmentation进行样本集扩充,改善分类性能。
异常检测库PyOD
链接: 微调知乎.