线性回归概率解释(Linear Regression)

最新推荐文章于 2024-08-29 20:32:56 发布

rushshi

最新推荐文章于 2024-08-29 20:32:56 发布

阅读量9.9k

点赞数 3

分类专栏：机器学习文章标签：机器学习线性模型广义线性模型贝叶斯线性模型概率解释

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sz464759898/article/details/43957433

版权

本文从概率角度探讨线性回归模型，解释为何采用最小二乘法作为成本函数。通过将输出y视为随机变量，利用高斯分布进行建模，通过最大似然估计求解最优参数θ。同时，介绍了线性模型的推广——广义线性模型（GLM），它将响应变量的分布扩展至指数分散族，并允许使用不同的连接函数。

摘要由CSDN通过智能技术生成

模型

监督学习：given a training set, to learn a function h : X $\to$ Y so that h(x) is a“good” predictor for the corresponding value of y.
这里写图片描述

对于线性回归,我们假设可以通过一条直线拟合样本，从而预测y。所以我们假设：

h θ (x) = \sum i = 0 n θ i x i = θ T x

$h_\theta(x) = \sum_{i=0}^n\theta_i x_i = \theta^Tx$
那么 cost function 为：

j (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

$j(\theta) = \frac12\sum_{i=1}^m(h_\theta(x^{(i)})-y{(i)})^2$

，也就是最小二乘法(LMS)。为了最小化 $j(\theta)$ ，我们可以采用批梯度下降法(BGD)、随机梯度下降法(SGD)或者用normal equation直接求 $\theta$ 。

接下来从概率的角度来讨论为什么cost function要采用LMS?

Probabilistic interpretation

我们把输入y看成是随机变量。此时， $y (i) = θ T x (i) + ϵ (i) .$ $y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}.$
$\epsilon$ 可以代表各种误差，比如测量误差，或者因为其他未知的特征x引起的误差。假设这些误差都是独立同分布的，那么由大数定律可知 $\epsilon^{(i)}\sim\mathcal{N}(0,\sigma^2)$ ，
$p (ϵ (i)) = 1 2 π - - \sqrt e x p (- ( ϵ ( i ) ) 2 2 σ 2) .$ $p(\epsilon^{(i)})={1\over \sqrt{2\pi}}exp(-{{(\epsilon^{(i)})^2}\over{2\sigma^2}}).$
所以可以得 $y^{(i)}|x^{(i)};\theta\sim\mathcal{N}(\theta^Tx^{(i)},\sigma^2)$ ，
$p (y (i) | x (i); θ) = 1 2 π - - \sqrt e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) .$ $p(y^{(i)}|x^{(i)};\theta)={1\over \sqrt{2\pi}}exp(-{{(y^{(i)}-\theta^Tx^{(i)})^2}\over{2\sigma^2}}).$
注意，这里 p(y(i)|x

最低0.47元/天解锁文章

关注

3
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。