线性模型

一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。
假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。
假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适
的低维子空间使得异常点(o)在其中区别于正常点(n)。

数据可视化
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

最小二乘法
梯度下降法
数据集
监督学习一般靠数据驱动。我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们
对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最
小。在机器学习术语里,该数据集被称为训练数据集(training data set)或训练集(training set),
通常还应该有一个用于防止过拟合的交叉验证集和一个用于评估模型性能的测试集(test set)。一栋房屋
被称为一个样本(sample),其真实售出价格叫作标签(label),用来预测标签的两个因素叫作特征
(feature)。
损失函数
如果把线性回归看作是一个优化问题,那么我们要优化的目标就是损失函数。损失函数是用来衡量
样本误差的函数,我们的优化目标是要求得在误差最小的情况下模型参数的值。
线性回归常用的损失函数是均方误差
优化算法 - 随机梯度下降
当模型和损失函数形式较为简单时,上面的误差最小化问题的解可以直接用公式表达出来。这类解
叫作解析解(analytical solution)。本节使用的线性回归和平方误差刚好属于这个范畴。然而,大多数
深度学习模型并没有解析解,只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类
解叫作数值解(numerical solution)。
在求数值解的优化算法中,小批量随机梯度下降(mini-batch stochastic gradient descent)被广
泛使用。它的算法很简单:先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,
使每次迭代都可能降低损失函数的值。在每次迭代中,先随机均匀采样一个由固定数目训练数据样本所
组成的小批量(mini-batch),然后求小批量中数据样本的平均损失和有关模型参数的导数(梯度),
最后用此结果与预先设定的学习率的乘积作为模型参数在本次迭代的减小量。
在这里插入图片描述
学习率( ): 代表在每次优化中,能够学习的步长的大小
批量大小( ): 是小批量计算中的批量大小batch size

主成分分析
在这里插入图片描述
主成分分析比因变量回归能更稳定地处理少数异常值的存在。这是因为主成分分析是根据最优超平面来计算误差的,而不是一个特定的变量。当数据中加入更多的离群点时,最优超平面的变化通常不会大到影响离群点的选择。因此,这种方法更有可能选择正确的异常值。

归一化问题
当不同维度的尺度差别较大时,使用 有时并不能得到直观有效的结果。例如,考虑一个包含
年龄和工资等属性的人口统计数据集。工资属性的范围可能是几万,而年龄属性几乎总是小于100,使
用主成分分析会导致主成分被高方差属性所控制。对于一个只包含年龄和工资的二维数据集,最大的特
征向量几乎与工资轴平行,这会降低异常点检测过程的有效性。因此,一个自然的解决方案是对数据进
行均值为0方差为1的标准化处理。这隐含地导致在主成分分析中使用相关矩阵而不是协方差矩阵。当
然,这个问题并不是线性建模所独有的,对于大多数异常检测算法,都需要使用这样的预处理。

回归分析的局限性
为了使回归分析技术有效,数据需要高度相关,并沿着
低维子空间对齐。当数据不相关,但在某些区域高度聚集时,这种方法可能不会有效。

真实数据中,数据不同属性之间往往具有显著的相关性。在这种情况下,线性建模可以提供一种有
效的工具来从底层数据中移除异常值或者进行异常检测。对于其他基于因变量回归的应用,线性建模是
一种工具,去除异常值对于提高此类应用的性能是非常重要的。在大多数情况下,主成分分析提供了去
除异常值和进行异常检测最有效的方法,因为它对存在少数异常值的数据更有鲁棒性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值