机器学习——线性回归

最新推荐文章于 2023-10-05 12:01:45 发布

DCGJ666

最新推荐文章于 2023-10-05 12:01:45 发布

阅读量267

点赞数

分类专栏：深度学习文章标签：机器学习线性回归概率论

本文链接：https://blog.csdn.net/DCGJ666/article/details/124691059

版权

深度学习专栏收录该内容

39 篇文章 1 订阅

订阅专栏

机器学习——线性回归

线性回归
最小二乘法
噪声为高斯分布的MLE

线性回归

假设数据集为：
$D = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
后面我们记：
$X=(x_1,x_2,...,x_N)^T, Y=(y_1,y_2,...,y_N)^T$
线性回归假设：
$f(w)=w^Tx$

最小二乘法

对这个问题，采用二范数定义的平方误差来定义损失函数：
${\sum}^N_{i=1}||w^Tx_i-y_i||^2_2$
展开得到：
$L(w)=(w^Tx_1-y_1,...,w^Tx_N-y_N).(w^Tx_1-y_1,...,w^Tx_N-y_N)^T\\ =(w^TX^T-Y^T).(Xw-Y)\\ =w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\\ =w$
最小化这个值的 $\hat{w}$ :
$\hat{w}=argmin_wL(w)\\ \longrightarrow\frac{\partial}{\partial{w}}L(w)=0\\ \longrightarrow{2X^TX\hat{w}-2X^TY=0}\\ \longrightarrow\hat{w}=(X^TX)^{-1}X^TY=X^+Y$
这个式子中 $X^TX)^{-1}X^{T}$ 又称为伪逆。对于行满秩或者列满秩的X，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法，对X求奇异值分解，得到
$X=U{\Sigma}V^T$
在几何上，最小二乘法相当于模型和试验值的距离的平方求和，假设我们的试验样本张成一个p维空间： $X=Span(x_1,...,x_N)$ ,而模型可以写成 $f(w)=X\beta$ ,也就是 $x_1,...,x_N$ 的某种组合，而最小二乘法就是说希望Y和这个模型距离越小越好，于是它们的差应该与这个张成的空间垂直：
$X^T.(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY$

噪声为高斯分布的MLE

一维的高斯分布

$N(\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

p维高斯分布

$N(\mu, \Sigma)=\frac{1}{(2\pi)^{p/2}\Sigma^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

MLE极大似然估计

$\theta_{MLE}=argmax_{\theta}P(x|\theta)$
对于一维的情况，记 $y=w^Tx+\epsilon,\epsilon\sim{N(0,\sigma^2)}$ ,那么 $y\sim{N(w^Tx,\sigma^2)}$ 。代入极大似然估计中：
$w)=log\prod_{i=1}^Np(y_i|x_i,w)\\ =\sum_{i=1}^Nlog(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\\ =\sum_{i=1}^N[log\frac{1}{\sqrt{2\pi}}+log\frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}]$
因此，我们求 $\mu_{MLE}$ ,有：
$\mu_{MLE}=argmax_\mu{logp(x|\theta)}\\ = argmax_\mu{\sum_{i=1}^N-\frac{(x_i-\mu)^2}{2\sigma^2}}\\ =argmin_\mu{\sum_{i=1}^N(x_i-\mu)^2}$
求导得：
$\frac{\partial}{\partial{\mu}}\sum_{i=1}^N(x_i-\mu)^2=\sum_{i=1}^N2(x_i-\mu)(-1)=0\\ \longrightarrow\sum_{i=1}^{N}(x_i-\mu)=0\\ \longrightarrow\sum_{i=1}^Nx_i=N\mu\\ \longrightarrow\mu_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_i$

对于 $\sigma^2_{MLE}$ ,我们依然可以根据上式得到：
$\sigma^2_{MLE}=argmax_\sigma{logP(x|\theta)}\\ =argmax_\sigma(-log\sigma-\frac{1}{2\sigma^2}(x_i-\mu)^2)$
求导得：
$\frac{\partial}{\partial\sigma}=-\frac{1}{\sigma}-\frac{1}{2}(x_i-\mu)^2(-2)\sigma^{-3}=0\\ \longrightarrow-\frac{1}{\sigma}+(x_i-\mu)^2\sigma^{-3}=0\\ \longrightarrow-\sigma^2+(x_I-\mu)^2=0\\ \longrightarrow\sum_{i=1}^N-\sigma^2+(x_i-\mu)^2=0\\ \longrightarrow\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2$
但是上面的 $\sigma$ 属于有偏估计。
我们对 $\sigma_{MLE}^2$ 求期望，有：
$E[\sigma_{MLE}^2]=\frac{1}{N}\sum_{i=1}^NE(x_i-\mu_{MLE})^2\\ =\frac{1}{N}\sum_{i=1}^{N}E(x_i^2-2x_i\mu_{MLE}+\mu^2_{MLE})\\ =\frac{1}{N}(\sum_{i=1}^NE(x_i^2)-2\sum_{i=1}^NE(x_i\mu_{MLE})+\sum_{i=1}^NE(\mu^2_{MLE}))\\ =\frac{1}{N}(\sum_{i=1}^NE(x_i^2)-2\mu^2_{MLE}+\mu^2_{MLE})\\ =\frac{1}{N}E(\sum_{i=1}^Nx_i^2-\mu^2_{MLE})\\ =E[\frac{1}{N}\sum_{i=1}^Nx^2_i-\mu^2-(\mu^2_{MLE}-\mu^2)]\\ =E[\frac{1}{N}\sum_{i=1}^Nx^2_i-\mu^2]-E[(\mu^2_{MLE}-\mu^2)]$
而
$E[\frac{1}{N}\sum_{i=1}^Nx^2_i-\mu^2]=E(\frac{1}{N}\sum_{i=1}^N(x_i^2-\mu^2))\\ =\frac{1}{N}\sum_{i=1}^N(x_i^2-\mu^2)\\ =\frac{1}{N}\sum_{i=1}^NE(x_i^2)-E(\mu^2)\\ =\frac{1}{N}\sum_{i=1}^N\sigma^2=\sigma^2$
$E[(\mu^2_{MLE}-\mu^2)]=E(\mu^2_{MLE})-E(\mu^2)\\ =E(\mu^2_{MLE})-\mu^2=Var(\mu_{MLE})\\ =Var[\frac{1}{N}\sum^N_{i=1}x_i]=\frac{1}{N^2}\sum^N_{i=1}Var(x_i)\\ =\frac{1}{N^2}\sum_{i=1}^N\sigma^2=\frac{1}{N}\sigma^2$

所以最终：
$E[\sigma^2_{MLE}]=\frac{N-1}{N}\sigma^2$
而 $\sigma$ 的无偏估计为：
$\sigma = \frac{1}{N-1}\sum_{i=1}^N(x_i-\mu_{MLE})$

DCGJ666

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——线性回归

机器学习——线性回归线性回归最小二乘法噪声为高斯分布的MLE一维的高斯分布p维高斯分布MLE极大似然估计线性回归假设数据集为：D={(x1,y1),(x2,y2),...,(xN,yN)}D = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}D={(x1,y1),(x2,y2),...,(xN,yN)}后面我们记：X=(x1,x2,...,xN)T,Y=(y1,y2,...,yN)TX=(x_1,x_2,...,x_N)^T, Y=(y_1,y_2,...,
复制链接

扫一扫