第三课.最小二乘线性估计

最新推荐文章于 2024-01-08 01:26:34 发布

tzc_fly

最新推荐文章于 2024-01-08 01:26:34 发布

阅读量697

点赞数 3

分类专栏：随机过程与概率图模型文章标签：线性回归最小二乘法高斯噪声参数估计矩阵求解

本文链接：https://blog.csdn.net/qq_40943760/article/details/115294852

版权

随机过程与概率图模型专栏收录该内容

23 篇文章 17 订阅

订阅专栏

线性拟合

平面线性拟合

线性回归是最简单的数据拟合方法，平面空间的线性回归利于直观理解：
fig1
平面上有很多样本点 $(x, y)$ ，目标是找到一条直线 $y = a x + b$ 拟合这些样本，在实际问题中，样本点的特征不局限于1维，而是任意的 $p$ 维；

维度扩展

为了便于问题描述，引入符号：
假设有一组样本 $D=\left\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\right\}$ ，其中， $x_{i}$ 是一个 $p$ 维向量，它可以表达第 $i$ 个样本被观察的 $p$ 个特征， $y_{i}$ 表示第 $i$ 个样本的取值，是一个数值，所以拟合的直线表示样本 $p$ 个特征到最终取值的线性映射关系；

因此， $N$ 个样本的集合写作： $X=[x_{1},x_{2},...,x_{N}]^{T}$ ；每个样本写作向量 $x_{i}=[x_{i1},x_{i2},...,x_{ip}]$ ，最终目标是估计系数 $w=[w_{1},w_{2},...,w_{p}]$ 和一个偏置 $b$ ，从而建立映射：
$w^{T}x+b\Rightarrow y$
为了书写简便，可以将偏置 $b$ 作为系数 $w_{0}$ ，得到：
fig2
即 $w^{T}x+b\Rightarrow y$ 变成 $w^{T}x\Rightarrow y$ ；

最小二乘参数估计

在最小二乘法估计中，定义目标函数如下：
$L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2}$
针对 $N$ 个样本，找到一个系数向量 $w$ ，使得拟合结果和真实值间误差的平方和最小；

高斯噪声与最小二乘

探究高斯噪声与最小二乘的关系

通过线性拟合，能否让直线精确通过每一个样本，使得拟合的误差为0；显然这是不可能的，因为样本本身携带噪声，带有随机性，所以可以得到另一种理解：拟合的直线代表样本分布的确定性，拟合值和真实值的误差（也可称为噪声），代表了随机性；

对于随机性的噪声 $\epsilon$ ，也许可以用高斯分布来描述：
$\epsilon\sim N(0,\sigma^{2})$
因此，可以得到：
$y=w^{T}x+\epsilon$
显然，在 $w$ 与 $x$ 确定的情况下， $y$ 也将服从正态分布：
$y\sim N(w^{T}x,\sigma^{2})$
其概率密度也是一个条件概率：
$p(y|x,w)=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}})$
此时，可以使用极大似然估计去获得参数 $w$ ，对数似然函数为：
$L(w)=log\prod_{i=1}^{N}p(y_{i}|x_{i},w)=\sum_{i=1}^{N}log(p(y_{i}|x_{i},w))=\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi\sigma^{2}}}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}})$
去除与 $w$ 无关的项，目标化简为：
$w_{mle}=argmax_{w}\sum_{i=1}^{N}-(y_{i}-w^{T}x_{i})^{2}=argmin_{w}\sum_{i=1}^{N}(y_{i}-w^{T}x_{i})^{2}$
可以看出，正好就是最小二乘法参数估计的目标函数 $L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2}$ ，所以，最小二乘法本身就隐含了噪声服从0均值正态分布的假设；

参数估计

现在需要求解 $w_{mle}$ ，首先展开目标函数：
fig3
对向量 $w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}]$ 进行简单处理：
$w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}]=w^{T}[x_{1},x_{2},...,x_{N}]-[y_{1},y_{2},...,y_{N}]=w^{T}X^{T}-Y^{T}$
同样的，后一项作为转置有：
$w^{T}X^{T}-Y^{T})^{T}=Xw-Y$
得到：
$L(w)=(w^{T}X^{T}-Y^{T})(Xw-Y)=w^{T}X^{T}Xw-2w^{T}X^{T}Y+Y^{T}Y$
计算关于 $w$ 的偏导数，并令偏导数为0：
$\frac{\partial L(w)}{\partial w}=2X^{T}Xw-2X^{T}Y=0\Rightarrow w=(X^{T}X)^{-1}X^{T}Y$

tzc_fly

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第三课.最小二乘线性估计

目录线性拟合平面线性拟合维度扩展最小二乘参数估计高斯噪声与最小二乘探究高斯噪声与最小二乘的关系参数估计线性拟合平面线性拟合线性回归是最简单的数据拟合方法，平面空间的线性回归利于直观理解：平面上有很多样本点(x,y)(x,y)(x,y)，目标是找到一条直线y=ax+by=ax+by=ax+b拟合这些样本，在实际问题中，样本点的特征不局限于1维，而是任意的ppp维；维度扩展为了便于问题描述，引入符号：假设有一组样本D={(x1,y1),(x2,y2),...,(xn,yn)}D=\left\{(
复制链接

扫一扫

专栏目录