“数据挖掘实战 - 异常检测”学习赛的Task03-学习日志


前言

本文章为天池“数据挖掘实战 - 异常检测”学习赛的Task03-学习日志,旨在对线性回归异常值的处理方法有进一步的了解。
学习地址添加链接描述


一、概论学习思维导图

在这里插入图片描述


二、线性模型的背景介绍

1.相关定义

回归模型定义:是一种参数化的相关性分析,因为数据集中不同维度的数据通常具有高度的相关性,回归建模将不同属性通过相关性将其联系。

线性回归:假设不同维度的变量具有一定的相关性,并可以通过一个相关系数矩阵进行衡
量。对于特定的观测值,可通过线性方程组来建模。

2.线性回归假设

1. 近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础;

2. 子空间假设。其认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

3.线性回归异常值原理

原理:线性回归中,是通过自变量去预测一个因变量的平均值,这种情况下,异常值是根据其他自变量对因变量的影响来定义的,而自变量之间相互关系中的异常则不那么重要。这里的异常点检测主要用于数据降噪,避免异常点的出现对模型性能的影响,因而这里关注的兴趣点主要是正常值(n)。

4.常用方法

线性回归:其他变量预测单独的属性值。

主成分分析:用潜在变量来代表整个数据。


三、基于自变量与因变量的线性回归

1.最小二乘法(以一元回归为例)

1.1 线性回归基本假设

1.因变量与自变量具有线性关系;
2.在重复实验中自变量的取值是固定的,即假定x为非随机的,与随机误差项无关;
3.误差项是一个期望为0的随机变量;
4.对所有x误差项的方差均相同;
5.误差项服从正太分布.

1.2 最小二乘法

>>定义:使因变量的观测者和预测值的离差平法和最小来估计系数。

目标函数:
在这里插入图片描述
注:最小二乘法要求矩阵Ut`U可逆,当其不可逆可以通过两种方法进行参数估计,一种先使用主成分分析等方法来预处理数据,消除不同特征之间的相关性,然后再使用最小二乘法;第二种方法是使用梯度下降法。

>>最小二乘估计的优良性质:
1.使得离差平法和最小;
2.参数估计量的抽样分布可知;
3.该方法求出的参数同其他估计量相比,其抽样具有较小的标准差。

2.梯度下降法

2.1数据集

>>训练数据集(training data set):也称训练集(training set),数据集用以寻找模型参数来使模型的预测值与真实值的误差最小;

>>测试集(test set):从整体数据中随机分离出来,用于防止过拟合的交叉验证集和一个用于评估模型性能的测试集(test set)。

2.2 损失函数

>>线性回归常用的损失函数是均方误差,表达式为:
在这里插入图片描述

2.3 优化算法 - 随机梯度下降落

>>算法过程:先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的值。在每次迭代中,先随机均匀采样一个由固定数目训练数据样本组成的小批量(mini-batch),然后求小批量中数据样本的平均损失和有关模型参数的导数(梯度),最后用此结果与预先设定的学习率的乘积作为模型参数在本次迭代的减小量。如下式所示:
在这里插入图片描述


四、基于异常检测的线性回

>>以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面。

1.主成分分析

1.1原理推导

在这里插入图片描述

1.2主成分分析的主要性质

主要性质如下:

  1. 如果前面的特征向量选定之后(根据最大的 个特征值),由这些特征向量定义的 维超平面是在所有维度为 的超平面中,所有数据点到它的均方距离尽可能小的平面;
  2. 如果将数据转换为与正交特征向量对应的轴系,则转换后的数据沿每个特征向量维的方差等于相应的特征值。在这种新表示中,转换后的数据的协方差为0;
  3. 由于沿特征值小的特征向量的转换数据的方差很低,因此沿这些方向的变换数据与平均值的显着偏差可能表示离群值。

1.3 归一化问题

>>当不同维度的尺度差别较大时,使用 有时并不能得到直观有效的结果,因此,一个自然的解决方案是对数据进行均值为0方差为1的标准化处理。这隐含地导致在主成分分析中使用相关矩阵而不是协方差矩阵。


五、回归分析的局限性

1. 为了使回归分析技术有效,数据需要高度相关,并沿着低维子空间对齐。当数据不相关,但在某些区域高度聚集时,这种方法可能不会有;
2. 数据中的相关性在本质上可能不是全局性的。子空间相关性可能是特定于数据的特定位置的。在这种情况下,由主成分分析发现的全局子空间对于异常检测是次优的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值