异常检测学习之线性模型

感想

假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。
假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。
基于这两点假设,在异常检测的第一阶段,为了确定特定的模型是否适合特定的数据集,对数据进行探索性和可视化分析是非常关键的。

1、先可视化观察数据
①、head()+tail()+shape:简略查看数据结构
②、describe():来熟悉数据的相关统计量,主要是观察最大值与75%、最小值与25%差值情况
③、info():熟悉数据类型
④、isna().sum()/isna().mean():来观察数据是否存在NAN数据
⑤、corr():做相关性分析
⑥、sns.pairplot:可视化显示两两变量间的相关性
2、线性回归
线性回归是统计学中一个重要的应用,这个重要的应用往往是指通过一系列自变量去预测一个特殊因变量的值。在这种情况下,异常值是根据其他自变量对因变量的影响来定义的,而自变量之间相互关系中的异常则不那么重要。这里的异常点检测主要用于数据降噪,避免异常点的出现对模型性能的影响,因而这里关注的兴趣点主要是正常值(n)。常用方法有:最小二乘法、梯度下降法
3、主成分分析
找到任意k(k<d)维的最优表示超平面,从而使平方投影误差最小化。
主成分分析涉及距离问题,在所有处理距离问题的算法必须要做一步,归一化处理,消除量纲影响。

各算法推导过程参考资料https://github.com/datawhalechina/team-learning-data-mining/blob/master/AnomalyDetection/%E4%B8%89%E3%80%81%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B.md

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值