线性回归&主成分分析(PCA)之异常检测
1 基础知识
1.1 前提假设
利用线性回顾和主成分分析进行异常检测需要有两个前提假设:
- 1、近似线性相关假设。是利用线性回归和PCA进行异常检测的理论基础
- 2、子空间假设。子空间假设惹味数据是内嵌在低维度空间之中,线性方法目的是找到合适的低维子空间
使得异常点在其中区别于正常点。
1.2 主成分分析法
主成分分析法是最常用的线性降维方法,主要原理是通过某种线性投影,将高维的数据映射到低维度的空间中表示,并期望在所投影的维度上-数据的方差最大,以此达到使用较少的数据维度来保留较多的原数据点特性的效果。举例:iris 数据集为例:
from sklearn.decomposition import PCA
# 主成分分析法,返回降维后的数据;
# 参数n_components为主要成分的数量;
PCA(n_components=2