2021-05-数据异常检测-task3

最新推荐文章于 2024-07-12 17:01:23 发布

William_ywh

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量168

点赞数

分类专栏：机器学习入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kyre11/article/details/116950054

版权

本文探讨了利用线性回归和主成分分析进行数据异常检测的方法。线性回归通过其他变量预测属性值，假设变量间存在线性相关性；主成分分析则寻找能代表整体样本的变量。异常检测基于近似线性相关和子空间假设，旨在识别低维子空间中的异常点。线性回归利用最小二乘法构建模型，减少异常值对模型性能的影响。

摘要由CSDN通过智能技术生成

今天了解一下使用线性相关方法进行异常检测：
我最近了解到两个线性相关方法可以进行一个样本中的异常检测：

线性回归
主成分分析

在进入这两个方法的介绍之前，先了解一下一个概念：

回归建模：通过参数化的表达式来digitalize 因变量和自变量之间的相关性。直白的说，就是用数学表达式来刻画“相关性”这三个字。

搞清楚回归是做什么用的之后，就可以开始了解最初上述两个方法的作用是什么了：

线性回归：在一个样本中，通过其他变量预测单独的属性值。（这样做其实心里已经在默认其他变量和单独的属性值是具有相关性的了）
主成分分析：在一个样本中，选择使用一些变量来代表整个样本。

使用上述两个方案能够进行异常检测的假设：

近似线性相关假设：线性相关假设是使用两种模型进行异常检测的重要理论基础。这个已经说明一点了，就是你已经假设这个样本里的变量值与属性值是具有一定的线性相关性的。如果都不具备线性相关性，用上述两个方案做异常检测显然不合适。
子空间假设：子空间假设认为数据是镶嵌在低维子空间中的，线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

线性回归：
在线性回归中，我们假设不同维度的变量具有一定的相关性，并可以通过一个相关系数矩阵进行衡量。因此对于特定的观测值，可以通过线性方程组来建模。在实际应用中，观测值的数量往往远大于数据的维度，导致线性方程组是一个超定方程，不能直接求解。因此需要通过优化的方法，最小化模型预测值与真实数据点的误差。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。