感想
假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。
假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。
基于这两点假设,在异常检测的第一阶段,为了确定特定的模型是否适合特定的数据集,对数据进行探索性和可视化分析是非常关键的。
1、先可视化观察数据
①、head()+tail()+shape:简略查看数据结构
②、describe():来熟悉数据的相关统计量,主要是观察最大值与75%、最小值与25%差值情况
③、info():熟悉数据类型
④、isna().sum()/isna().mean():来观察数据是否存在NAN数据
⑤、corr():做相关性分析
⑥、sns.pairplot:可视化显示两两变量间的相关性
2、线性回归
线性回归是统计学中一个重要的应用,这个重要的应用往往是指通过一系列自变量去预测一个特殊因变量的值。在这种情况下,异常值是根据其他自变量对因变量的影响来定义的,而自变量之间相互关系中的异常则不那么重要。这里的异常点检测主要用于数据降噪,避免异常点的出现对模型性能的影响,因而这里关注的兴趣点主要是正常值(n)。常用方法有:最小二乘法、梯度下降法
3、主成分分析
找到任意k(k<d)维的最优表示超平面,从而使平方投影误差最小化。
主成分分析涉及距离问题,在所有处理距离问题的算法必须要做一步,归一化处理,消除量纲影响。