线性回归专栏——贝叶斯下的线性回归

声明:

author:修远

此系列专栏为Datawhale下开源项目《李宏毅机器学习》Linear Regreession的补充内容。作者水平有限,还望学习者批评指正。

在P3中李宏毅老师为我们讲解了线性回归的内容(定义,示例等),这篇文档主要从贝叶斯角度来看待课程内的线性回归内容,以便于让我们更好的理解这个算法背后的道理

Github链接:https://github.com/datawhalechina/leeml-notes
课程P3在线阅读网址:https://datawhalechina.github.io/leeml-notes/#/chapter3/chapter3
B站网站:https://www.bilibili.com/video/av59538266?from=search&seid=15147367436823471841

目录:
  • 贝叶斯
  • 贝叶斯角度
  • 先验分布
  • 后验分布
  • 为什么假设高斯模型
1.贝叶斯线性回归
1.1贝叶斯

我们在李宏毅老师的Regression课中可以看到在Goodness of function里面通过误差最小化问题进行表示。在这里我将从贝叶斯的角度来解释公式为什么是这样定义的。这样可以更深刻地认识误差函数以及正则化

上面的内容我们证明贝叶斯公式的推导过程,并且说明背后的思想(将先验概率转换为后验概率)。现在正如我们在课中所学的,我们对参数w,b进行求解时,我们可以采用类似的方法。在观察数据之间,我们有一些关于参数w的假设,这以先验概率p(w)的形式给出。在数据集 D = x 1 , x 2 , . . . x n D={x_1,x_2,...x_n} D=x1,x2,...xn和label y i y^i yi求解参数时,我们可以通过条件概率 p ( D ∣ w ) p(D|w) p(Dw)表达,贝叶斯定理的形式为:

p ( w ∣ D ) = p ( D ∣ w ) p ( w ) p ( D ) p(w|D)=\frac{p(D|w)p(w)}{p(D)} p(wD)=p(D)p(Dw)p(w)

通过后验概率 p ( w ∣ D ) p(w|D) p(wD),在观察到D之后估计w的不确定性。 p ( D ∣ w ) p(D|w) p(Dw)由观察数据集D来估计,可以被看成参数向量w的函数,被称为似然函数(likelihood function)。它表达了在不同的参数向量w下,观测数据出现的可能性的大小

后验概率

p ( w ∣ D ) ∝ p ( D ∣ w ) p ( w ) p(w|D)\propto p(D|w)p(w) p(wD)p(Dw)p(w)

1.2贝叶斯角度

在李宏毅老师的课中,我们可以很直觉的看到:我们想要的事情就是:根据m个输入 X = ( x 1 , x 2 , . . . x m ) X=(x_1,x_2,...x_m) X=(x1,x2,...xm)组成的数据集和它们对应的目标值 y ( y 1 , y 2 , . . . y m ) y(y_1,y_2,...y_m) y(y1,y2,...ym)。在给定输入变量x的新值情况下,对目标变量y进行预测。从贝叶斯的角度来看,y是具有不确定性的。在实际情况中,y具有的不确定性其实使数据被噪声干扰的结果。

现在我们假设,给定x,对应的y值服从于正态分布,分布均值为y(x,w),估计正态分布参数( μ , σ 2 \mu, \sigma^2 μ,σ2),求极大似然值。则:

p ( y ∣ x , w , β ) = p ( y ∣ y ( x , w ) , β − 1 ) = N ( y ∣ y ( w , x ) , β − 1 ) p(y|x,w,\beta)=p(y|y(x,w),\beta^{-1})=N(y|y(w,x),\beta^{-1}) p(yx,w,β)=p(yy(x,w),β1)=N(yy(w,x),β1)
为了符号统一,我在这里定义了精度参数 β \beta β,它对应于分布方差的倒数。

上式可解释为: p ( y ∣ x , w , β ) p(y|x,w,\beta) p(yx,w,β)表示样本 ( x , y ) (x,y) (x,y)的输出y关于输入特征x、模型参数w以及样本分布方差 β \beta β的概率密度函数,其服从于 N ( y ∣ y ( w , x ) , β − 1 ) ) N(y|y(w,x),\beta^{-1})) N(yy(w,x),β1))的正态分布。

高斯

1.3似然函数

在我们进行采集数据会采用独立同分布的方式来进行采集,所以可以通过最大似然方法,来决定参数w和 β \beta β的值

p ( y ∣ x , w , β ) = ∏ n = 1 m N ( y ∣ y ( w , x ) , β − 1 ) p(y|x,w,\beta)=\prod_{n=1}^{m}N(y|y(w,x),\beta^{-1}) p(yx,w,β)=n=1mN(yy(w,x),β1)

N ( y ∣ y ( w , x ) , β − 1 ) = 1 2 π β − 1 e x p ( y − y ( x , w ) 2 2 ( β − 1 ) 2 ) N(y|y(w,x),\beta^{-1})=\frac{1 }{\sqrt{2\pi } \beta^{-1}}exp(\frac{y-y(x,w)^2}{2(\beta^{-1})^2}) N(yy(w,x),β1)=2π β11exp(2(β

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值