今天了解一下使用线性相关方法进行异常检测:
我最近了解到两个线性相关方法可以进行一个样本中的异常检测:
- 线性回归
- 主成分分析
在进入这两个方法的介绍之前,先了解一下一个概念:
- 回归建模:通过参数化的表达式来digitalize 因变量和自变量之间的相关性。直白的说,就是用数学表达式来刻画“相关性”这三个字。
搞清楚回归是做什么用的之后,就可以开始了解最初上述两个方法的作用是什么了:
- 线性回归:在一个样本中,通过其他变量预测单独的属性值。(这样做其实心里已经在默认其他变量和单独的属性值是具有相关性的了)
- 主成分分析:在一个样本中,选择使用一些变量来代表整个样本。
使用上述两个方案能够进行异常检测的假设:
-
近似线性相关假设:线性相关假设是使用两种模型进行异常检测的重要理论基础。这个已经说明一点了,就是你已经假设这个样本里的变量值与属性值是具有一定的线性相关性的。如果都不具备线性相关性,用上述两个方案做异常检测显然不合适。
-
子空间假设:子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。
线性回归:
在线性回归中,我们假设不同维度的变量具有一定的相关性,并可以通过一个相关系数矩阵进行衡 量。因此对于特定的观测值,可以通过线性方程组来建模。在实际应用中,观测值的数量往往远大于数 据的维度,导致线性方程组是一个超定方程,不能直接求解。因此需要通过优化的方法,最小化模型预 测值与真实数据点的误差。