异常检测是属于半监督学习的机器学习问题的另一种变体。它是半监督的,因为在异常检测(也通常称为离群点检测)中,模型通常涉及使用验证集标签匹配的参数,而训练过程不涉及训练集标签。此外,测试集标签还用于评估模型性能指标,如Accuracy,Precision,Recall,F1-Score和AUROC(ROC曲线下的面积)。
异常检测的一种常见方法是高斯分布。在该方法中,所有特征都在高斯分布上建模并且给定新的数据点,数据点的概率由高斯/正态分布函数给出。如果概率低于特定阈值(根据验证集上模型的性能设置),则声称新数据点是异常值或离群值。
![a58066de1ff1a80b6afd16a05b652bcf.png](https://i-blog.csdnimg.cn/blog_migrate/2ad368704e6ba1a1cdc4c7c43b22641d.jpeg)
高斯/正态分布,均值=μ,标准偏差=σ
根据高斯/正态分布:
![04986e8870862206bd69b9b319c79822.png](https://i-blog.csdnimg.cn/blog_migrate/5a9aaadf7952793a99a159ce55a1072f.jpeg)
p(x)是高斯分布中x的概率
高斯分布异常检测算法:
有m个数据点(实例),每个实例有n个选择的特征。
- 每个特征(j = 1 to n)的均值参数是合适的。
![ac1e58bcb8d19995374decae81ca662a.png](https://i-blog.csdnimg.cn/blog_migrate/c5a5ae61d8db985e00633eab1e68fe53.jpeg)
- 每个特征(j = 1 to n)的方差参数是合适的。