数据挖掘——异常检测task3:线性模型

异常检测——线性模型

  • 主要研究内容:线性回归、主成分分析

1、引言

参数化的相关性分析——回归建模:真实数据集中不同维度的数据通常具有高度的相关性,因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。

  • 一类相关性分析试图通过其他变量预测单独的属性值——线性回归

  • 另一类方法用一些潜在变量来代表整个数——主成分分析

假设:

  • 假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

  • 假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

注:基于假设,异常检测第一阶段,为确定特定模型是否适合特定的数据集,应对数据进行详细的探索性和可视化分析。

2、线性回归

线性回归:假设不同维度的变量具有一定的相关性,并通过相关系数矩阵进行衡量。因此对于特定的观测值,可以通过线性方程组来建模。但在实际应用中,观测值的数量往往远大于数据的维度,导致线性方程组是一个超定方程,不能直接求解。因此需要通过优化的方法,最小化模型预测值与真实数据点的误差

线性回归——统计学应用:通过一系列自变量去预测一个特殊因变量的值。此时,异常值基于其他自变量对因变量的影响来定义,而自白能量之间相关性的异常则显得不重要。这里,异常点检测主要用于数据降噪,避免异常点的出现对模型性能的影响,因而关注点是正常值(n)。

通常所说的异常检测并不会对任何变量给与特殊对待,异常值基于基础数据点的整体分布来定义,关注点是异常值(o)。

广义的回归建模只是一种工具,这种工具既可以用来进行数据降噪也可以进行异常点检测。

2.1 基于自变量与因变量的线性回归

2.1.1 最小二乘法——一元线性回归为例

在这里插入图片描述

2.1.2 梯度下降法

数据集

监督学习——数据驱动(数据集:多栋房屋的真实售出价格和它们对应的面积和房龄)——>寻找模型参数以使模型的预测价格与真实价格的误差最小。该数据集被称为训练数据集(training data set)或训练集(training set),另外还有用于防止过拟合的交叉验证集和一个用于评估模型性能的测试集(test set)。一栋房屋被称为一个样本(sample),其真实售出价格叫作标签(label),用来预测标签的两个因素叫作特征(feature)。

损失函数

线性回归——优化问题,即优化失函数。损失函数是用来衡量样本误差的函数,以得在误差最小的情况下模型参数的值。

  • 损失函数和代价函数的区别:

Loss Function(损失函数):the error for single training example;
Cost Function(代价函数):the average of the loss functions of the entire training set;

线性回归常用的损失函数是均方误差,表达式为:
在这里插入图片描述
优化算法-随机梯度下降

  • 解析解:当模型和损失函数形式较为简单时,上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解(analytical solution)。线性回归和平方误差刚好属于此范畴。

  • 数值解:大多数深度学习模型并没有解析解,只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解(numerical solution)。

  • 随机梯度下降:在求数值解的优化算法中,小批量随机梯度下降(mini-batch stochastic gradient descent)被广泛使用。它的算法很简单:先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的值。在每次迭代中,先随机均匀采样一个由固定数目训练数据样本所组成的小批量(mini-batch),然后求小批量中数据样本的平均损失和有关模型参数的导数(梯度),最后用此结果与预先设定的学习率的乘积作为模型参数在本次迭代的减小量。如下式所示:
    在这里插入图片描述

2.2基于异常检测的线性回归

案例情况:一个特定的变量被认为是特殊的,最优平面是通过最小化该特殊变量的均方误差而确定的。

通常所说的异常检测中并不会对任何变量给与特殊对待,异常值的定义是基于基础数据点的整体分布,因此需要采用一种更一般的回归建模:即以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面。此时,假设我们有一组变量X1…Xd,对应的回归平面如下:
在这里插入图片描述

此问题可以通过主成分分析法有效解决。

3、主成分分析

  • 最小二乘法:试图找到一个与数据具有最佳匹配(d-1)维超平面
  • 主成分分析法:找到任意k(k<d)维的最优表示超平面,从而使平方投影误差最小化

3.1 原理推导

在这里插入图片描述
这里的D为对角矩阵,对角元素为特征值;P为标准正交矩阵,每一行为对应的特征向量;这些标准正交向量提供了数据应该投影的轴线方向。与异常检测相关的主成分分析的主要性质如下:

  • 如果前的特征向量选定之后(根据最大的k个特征值),由这些特征向量定义的k维超平面是在所有维度为k的超平面中,所有数据点到它的均方距离尽可能小的平面。
  • 如果将数据转换为与正交特征向量对应的轴系,则转换后的数据沿每个特征向量维的方差等于相应的特征值。在这种新表示中,转换后的数据的协方差为0。
  • 由于沿特征值小的特征向量的转换数据的方差很低,因此沿这些方向的变换数据与平均值的显着偏差可能表示离群值。
    注:此处提供了一个比2.2节更普遍的解决方法(2.2节是主成分分析中只保留最大特征值对应的特征向量的情况)
    得到这些特征值和特征向量之后,可以将数据转换到新的坐标系中。以Y1…YN表示新坐标系中的数据,这些数据可以通过原始向量Ri与包含新轴系的标准正交特征向量矩阵P的乘积来实现。
    在这里插入图片描述

在许多涉及高维数据集的真实场景中,很大一部分特征值往往非常接近于零。这意味着大多数数据都沿着一个低维的子空间排列。从异常检测的角度来看,这是非常方便的,因为离这些投影方向非常远的观测值可以被假定为离群值。例如,对于特征值较小(方差较小)的特征向量j,第i条记录的yij与ykj的其他值的偏差较大,说明有离群行为。这是因为当j固定而k变化时,ykj的值应当变化不大。因此,yij值是不常见的。

在不选取任何特定的k维集合的情况下,一种更精确的异常检测建模方法是使用特征值来计算数据点沿每个主分量方向到质心的归一化距离。设ej为第j个特征向量,λj为沿该方向的方差(特征值)。数据点X相对于对数据质心u的总体归一化异常得分可以由下式给出:
在这里插入图片描述
值得注意的是,对异常得分的大部分贡献是由λj值较小的主成分的偏差提供的,这一点上文中有提及过。主成分分析比因变量回归能更稳定地处理少数异常值的存在。这是因为主成分分析是根据最优超平面来计算误差的,而不是一个特定的变量。当数据中加入更多的离群点时,最优超平面的变化通常不会大到影响离群点的选择。因此,这种方法更有可能选择正确的异常值,因为回归模型一开始就更准确。

3.2 归一化问题

当不同维度的尺度差别较大时,使用PCA有时并不能得到直观有效的结果。例如,考虑一个包含年龄和工资等属性的人口统计数据集。工资属性的范围可能是几万,而年龄属性几乎总是小于100,使用主成分分析会导致主成分被高方差属性所控制。对于一个只包含年龄和工资的二维数据集,最大的特征向量几乎与工资轴平行,这会降低异常点检测过程的有效性。因此,一个自然的解决方案是对数据进行均值为0方差为1的标准化处理。这隐含地导致在主成分分析中使用相关矩阵而不是协方差矩阵。当然,这个问题并不是线性建模所独有的,对于大多数异常检测算法,都需要使用这样的预处理。

4、回归分析的局限性

回归分析作为检测离群值的工具有一些局限性。这些缺点中最重要的是在本章的一开始就讨论了,其中探讨了回归分析的数据特定性质。特别是,为了使回归分析技术有效,数据需要高度相关,并沿着低维子空间对齐。当数据不相关,但在某些区域高度聚集时,这种方法可能不会有效。

另一个相关的问题是,数据中的相关性在本质上可能不是全局性的。子空间相关性可能是特定于数据的特定位置的。在这种情况下,由主成分分析发现的全局子空间对于异常检测是次优的。因此,为了创建更一般的局部子空间模型,有时将线性模型与邻近模型结合起来是有用的。

5、总结

真实数据中,数据不同属性之间往往具有显著的相关性。在这种情况下,线性建模可以提供一种有效的工具来从底层数据中移除异常值或者进行异常检测。对于其他基于因变量回归的应用,线性建模是一种工具,去除异常值对于提高此类应用的性能是非常重要的。在大多数情况下,主成分分析提供了去除异常值和进行异常检测最有效的方法,因为它对存在少数异常值的数据更有鲁棒性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Semantic Analysis with Context Models • Task1: Model the context of a frequent pattern Based on the Context Model… • Task2: Extract strongest context indicators • Task3: Extract representative transactions • Task4: Extract semantically similar patterns 使用上下文模型进行语义分析 • 任务1:建模频繁模式的上下文,基于上下文模型… • 任务2:提取最强的上下文指标 • 任务3:提取代表性交易数据 • 任务4:提取语义相似的模式 在数据挖掘和机器学习中,语义分析是一项重要的任务。使用上下文模型进行语义分析是一种常用的方法。其中,频繁模式挖掘是语义分析的一个重要应用领域。通过建模频繁模式的上下文,我们可以更好地理解这些模式所代表的含义和作用。 任务1:建模频繁模式的上下文,基于上下文模型。上下文模型是一种描述数据集中各个数据点之间关系的模型。通过建立上下文模型,我们可以确定频繁模式的上下文,并且可以帮助我们更好地理解这些模式所代表的含义和作用。 任务2:提取最强的上下文指标。在上下文模型中,我们可以使用各种指标来描述数据点之间的关系,例如相似度、距离和相关性等。通过提取最强的上下文指标,我们可以更好地理解频繁模式的上下文,并且可以帮助我们更好地理解这些模式所代表的含义和作用。 任务3:提取代表性交易数据。在频繁模式挖掘中,交易数据是指包含频繁模式的数据记录。通过提取代表性的交易数据,我们可以更好地理解频繁模式所代表的含义和作用,并且可以帮助我们更好地进行模式分析。 任务4:提取语义相似的模式。在频繁模式挖掘中,我们通常会发现多个频繁模式之间存在语义上的相似性。通过提取语义相似的模式,我们可以更好地理解数据集中的规律和关联性,并且可以帮助我们更好地进行模式分析。 综上所述,使用上下文模型进行语义分析是一种有效的方法,可以帮助我们更好地理解数据集中的规律和关联性,特别是在频繁模式挖掘中。任务1到任务4是使用上下文模型进行语义分析的关键步骤。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值