2021-05-数据异常检测-task3

本文探讨了利用线性回归和主成分分析进行数据异常检测的方法。线性回归通过其他变量预测属性值,假设变量间存在线性相关性;主成分分析则寻找能代表整体样本的变量。异常检测基于近似线性相关和子空间假设,旨在识别低维子空间中的异常点。线性回归利用最小二乘法构建模型,减少异常值对模型性能的影响。
摘要由CSDN通过智能技术生成

今天了解一下使用线性相关方法进行异常检测:
我最近了解到两个线性相关方法可以进行一个样本中的异常检测:

  • 线性回归
  • 主成分分析

在进入这两个方法的介绍之前,先了解一下一个概念:

  • 回归建模:通过参数化的表达式来digitalize 因变量和自变量之间的相关性。直白的说,就是用数学表达式来刻画“相关性”这三个字。

搞清楚回归是做什么用的之后,就可以开始了解最初上述两个方法的作用是什么了:

  • 线性回归:在一个样本中,通过其他变量预测单独的属性值。(这样做其实心里已经在默认其他变量和单独的属性值是具有相关性的了)
  • 主成分分析:在一个样本中,选择使用一些变量来代表整个样本。

使用上述两个方案能够进行异常检测的假设:

  1. 近似线性相关假设:线性相关假设是使用两种模型进行异常检测的重要理论基础。这个已经说明一点了,就是你已经假设这个样本里的变量值与属性值是具有一定的线性相关性的。如果都不具备线性相关性,用上述两个方案做异常检测显然不合适。

  2. 子空间假设:子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

线性回归:
在线性回归中,我们假设不同维度的变量具有一定的相关性,并可以通过一个相关系数矩阵进行衡 量。因此对于特定的观测值,可以通过线性方程组来建模。在实际应用中,观测值的数量往往远大于数 据的维度,导致线性方程组是一个超定方程,不能直接求解。因此需要通过优化的方法,最小化模型预 测值与真实数据点的误差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值