白板机器学习笔记 P9-P12线性回归

这篇博客探讨了线性回归中的最小二乘法,解释了其几何意义和概率视角。通过引入高斯噪声,作者证明了最小二乘估计等价于噪声为高斯分布的极大似然估计。此外,还讨论了正则化中的岭回归,解释了L2正则化如何确保矩阵可逆,并等价于最大后验估计。内容涵盖了从频率角度到贝叶斯角度的理解。
摘要由CSDN通过智能技术生成

视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=9
笔记地址:https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/mkn2fh

P9 线性回归-最小二乘法及其几何意义
在这里插入图片描述
Loss函数
在这里插入图片描述
几何意义:让所有样本的真实值yi和预测值wTxi的平方差之和最小。
在这里插入图片描述
伪逆X+:把L(w)优化为一个矩阵运算的公式。
在这里插入图片描述

P10 线性回归-最小二乘法-概率视角-高斯噪声
在这里插入图片描述
本节内容:论证最小二乘估计等价于噪声为高斯分布的极大似然估计MLE。

假设:假设噪声 ε 服从高斯分布: ε ~ N(0,σ2),则测量值y可以表示为真实值wTx加上噪声:y=wTx+ε。注意这里的 ε 是一个噪声分布,而不是偏置,偏置已经包含在w中了。偏置的目的是让函数整体上升或者下移,比如y=2x+1中的1是为了让y=2x整体上升一个单位,但平移之后函数仍是一条直线。而这里的 ε 是为了让直线wTx上的点随机产生一些偏移,有的点上升有的下降不在一条直线上,从而模拟真实测量y的一些误差,由此可知 ε 不是偏置,而是一个噪声分布。

推导:因为y=wTx+ε,所以ε ~ N(0,σ2) ==> y|w,x ~ N(wTx,σ2)。
这里说的噪声服从高斯分布时,真实测量值y也服从高斯分布,指的是在对一个样本点的多次测量过程中y服从高斯分布。比如假设在测量x=1.5时,理论函数值wTx=3,但是由于噪声的存在,我们实际测量的结果y并不是3,而是在3左右上下波动,这时由于噪声 ε 服从高斯分布,那么我们多次测量的y也会服从高斯分布,这也就是为什么y的均值为wTx,方差为σ2。因为这个y的分布是对一个确定的样本点 x 的多次测量而言的,理论函数值wTx是一个定值。从下一步极大似然连乘的计算方式也可以看出应该把y的高斯分布看成是对特定点x的测量,因为每一个样本点xi处的测量都符合这个高斯分布,所以最后总的Loss才是把每个样本点处的y的高斯概率密度连乘起来。

结论:假设独立同分布,将Loss函数L(w)写成一堆y的高斯分布的连乘的形式,然后对w求偏导即可得到上一节中最小二乘的Loss函数公式的形式。所以可以得到结论:最小二乘估计就是噪声服从高斯分布 且样本独立同分布 的极大似然估计。

注意:这里极大似然MLE的目标是最大化P(Y|X,w),意思就是在X和w确定的条件下使得实际观测值为y的概率最大。连乘是保证这个w让所有样本满足自己观测值的联合概率最大。

P11 线性回归-正则化-岭回归-频率角度
在这里插入图片描述
本节内容:论证L2正则化可以使得XTX正定,从而可以求逆。

一个问题:用最小二乘估计计算w时,我们一般用最后的伪逆矩阵乘法公式 w=(XTX)-1XTY。这里有一个问题,XTX是一个实对称矩阵,是半正定的,但并不总能求逆,只有在满秩的时候才能求逆。一般情况下样本数量N远大于样本维度P,从而保证XTX满秩可求逆,但是如果N的数量相对于P来说不足时,就不可求逆,也即发生了过拟合现象。

应对过拟合的方法:①增加数据量 ②特征选择/特征提取 ③正则化

正则化框架
在这里插入图片描述
对加了L2正则的最小二乘估计(岭回归)的一些理解
在这里插入图片描述
把最小二乘估计的Loss函数加上L2约束,再求偏导得到最优的 w=(XTX+λI)-1XTY,可以发现这个w比原来的伪逆公式 (XTX)-1XTY 就多了个λI。因为XTX是实对称矩阵,半正定,再加上一个单位阵就变成正定矩阵了。满秩,所以此时保证XTX可求逆,这是L2范数除了选择较小参数w之外的作用。(这里可以进一步思考一下可逆与过拟合之间的一些关系)

P12 线性回归-正则化-岭回归-贝叶斯角度
在这里插入图片描述
本节内容:论证加了L2正则的最小二乘估计等价于噪声为高斯分布 且 w为高斯先验下的最大后验估计MAP。同时假设P(Y|X,w)服从高斯分布,也假设w的先验概率也服从高斯分布:P(w)~N(0,σ*),这时用MAP计算出的Loss函数表达式也等于最小二乘估计加上L2正则化项。这是因为我们假设了w的先验概率,这类似于对w的取值进行了约束,所以最后导出来的表达式也有一个惩罚项。

注意一:MAP最大化的对象是P(w|Y),这个后边看看最大后验估计是怎么设计的。

注意二:高斯概率密度公式的展开
在这里插入图片描述
指数部分的分子上是自变量减去其均值,P(y|w)的自变量是y,均值是wTx,所以表示为(y-wTx)2;P(w)的自变量是w,均值是0,所以表示为||w||2

总结:线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,①最小二乘估计等价于噪声为高斯分布极大似然估计MLE; ②加了L2正则的最小二乘估计等价于噪声为高斯分布 且 w为高斯先验下最大后验估计MAP

【+】(闭式解也叫解析解,就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题,最小二乘估计里边的伪逆矩阵计算公式就是。)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值