感谢datawhale大部队!
一 引言
在异常检测中,线性方法也是常用的实现方法之一。
现实业务场景数据中,不同维度的数据通常具有显著相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,参数化的相关性分析被称为回归建模。
一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析(PCA)。PCA(principal components analysis)即主成分分析技术,又称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在大多数情况下,主成分分析提供了去除异常值和进行异常检测最有效的方法,因为它对存在少数异常值的数据更有鲁棒性。
适用前提:
假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。
假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。
二 如何判断问题是否适用于用线性方法解决?
关键点:线性方法更适用于有近似性相关/子空间假设前提的数据集,因此,在具体建模前,有必要进行探索变量之间的相关性,以此判断该问题是否合适用线性方法解决。
可视化探索: