机器学习:概率视角的线性回归(Linear Regression)

机器学习:概率视角的Linear Regression

前言

上一节我们说到了一元线性回归·与·多元线性回归,大家如果还不清楚,可以去考古。
之前,我们用最小二乘估计,推导出来:
W ∗ = a r g m i n ( L ( W ) ) W^*=argmin(L(W)) W=argmin(L(W))
W ∗ = ( X T ∗ X − 1 ) ∗ X T ∗ Y W^*=(X^T*X^{-1})*X^T*Y W=(XTX1)XTY
在这一小节中,我采取概率的视角来解决线性回归问题。

推导过程

在这里插入图片描述
还是这一张图,我们可以发现,如果让拟合的直线与每个观测值x的距离都为0,也就是误差为0,但是这情况是不会出现的,因为数据本身就具有不确定性,带有一定的噪声。如果真有这种情况,这个模型也没有任何意义,只能解决特定问题。
1.我们假设噪声服从正态分布 ϵ \epsilon ϵ~N(0, σ 2 \sigma^2 σ2)

2.设 f ( W ) = W T X f(W) = W^TX f(W)=WTX,我们给函数引入噪声, y = f ( W ) + ϵ y =f(W)+ \epsilon y=f(W)+ϵ ,其中 ϵ \epsilon ϵ~N(0, σ 2 \sigma^2 σ2)

3.那么 y ( ∣ X , W ) y(|X,W) y(X,W) ~N( W T X W^TX WTX, σ 2 \sigma^2 σ2)

4.我们把y的均值与方差带入正态方程概率密度函数,得到下面pdf,
p ( y ∣ X , W ) = 1 2 π σ e x p ( − ( y − W T X ) 2 2 σ 2 ) p(y|X,W)= \frac {1} {\sqrt{2\pi}\sigma}exp(-\frac{(y-W^TX)^2}{2 \sigma^2}) p(yX,W)=2π σ1exp(2σ2(yWTX)2)

5 接着我们利用MLE(极大似然估计),通过已有的数据推出最有可能的概率模型,得出最优参数W。

6.设log-似然函数:
L ( W ) = ln ⁡ ∏ i = 1 n p ( y i ∣ x i , W ) L(W) = \ln\prod_{i=1}^np(y_i|x_i,W) L(W)=lni=1np(yixi,W)
L ( W ) = ∑ i = 1 n ln ⁡ p ( y i ∣ x i , W ) L(W)=\sum_{i=1}^n\ln p(y_i|x_i,W) L(W)=i=1nlnp(yixi,W)
L ( W ) = ∑ i = 1 n ln ⁡ 1 2 π σ e x p ( − ( y i − W T x i ) 2 2 σ 2 ) L(W)=\sum_{i=1}^n\ln \frac {1} {\sqrt{2\pi}\sigma}exp(-\frac{(y_i-W^Tx_i)^2}{2 \sigma^2}) L(W)=i=1nln2π σ1exp(2σ2(yiWTxi)2)
L ( W ) = ∑ i = 1 n ln ⁡ 1 2 π σ − ( ( y i − W T x i ) 2 2 σ 2 ) L(W)=\sum_{i=1}^n\ln \frac {1} {\sqrt{2\pi}\sigma}-(\frac{(y_i-W^Tx_i)^2}{2 \sigma^2}) L(W)=i=1nln2π σ1(2σ2(yiWTxi)2)
W ∗ = a r g m a x L ( W ) W^* =argmaxL(W) W=argmaxL(W)
W ∗ = a r g m a x ∑ i = 1 n ln ⁡ 1 2 π σ − ( ( y i − W T x i ) 2 2 σ 2 ) W^* =argmax\sum_{i=1}^n\ln \frac {1} {\sqrt{2\pi}\sigma}-(\frac{(y_i-W^Tx_i)^2}{2 \sigma^2}) W=argmaxi=1nln2π σ1(2σ2(yiWTxi)2)
W ∗ = a r g m a x ∑ i = 1 n − ( ( y i − W T x i ) 2 2 σ 2 ) W^* =argmax\sum_{i=1}^n-(\frac{(y_i-W^Tx_i)^2}{2 \sigma^2}) W=argmaxi=1n(2σ2(yiWTxi)2)
W ∗ = a r g m a x ∑ i = 1 n ( y i − W T x i ) 2 W^* =argmax\sum_{i=1}^n(y_i-W^Tx_i)^2 W=argmaxi=1n(yiWTxi)2

结论归纳

求到最后,我们可以看出,这与之前讲过的最小二乘估计的Cost function是一致的,可以得出结论最小二乘估计隐含了噪声服从正态的假设,从概率角度的MLE(极大似然估计)与MSE(最小二乘估计)本质是一样的。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HanZee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值