声明:
author:修远
此系列专栏为Datawhale下开源项目《李宏毅机器学习》Linear Regreession的补充内容。作者水平有限,还望学习者批评指正。
在P3中李宏毅老师为我们讲解了线性回归的内容(定义,示例等),这篇文档主要从贝叶斯角度来看待课程内的线性回归内容,以便于让我们更好的理解这个算法背后的道理
Github链接:https://github.com/datawhalechina/leeml-notes
课程P3在线阅读网址:https://datawhalechina.github.io/leeml-notes/#/chapter3/chapter3
B站网站:https://www.bilibili.com/video/av59538266?from=search&seid=15147367436823471841
目录:
- 贝叶斯
- 贝叶斯角度
- 先验分布
- 后验分布
- 为什么假设高斯模型
1.贝叶斯线性回归
1.1贝叶斯
我们在李宏毅老师的Regression课中可以看到在Goodness of function里面通过误差最小化问题进行表示。在这里我将从贝叶斯的角度来解释公式为什么是这样定义的。这样可以更深刻地认识误差函数以及正则化
上面的内容我们证明贝叶斯公式的推导过程,并且说明背后的思想(将先验概率转换为后验概率)。现在正如我们在课中所学的,我们对参数w,b进行求解时,我们可以采用类似的方法。在观察数据之间,我们有一些关于参数w的假设,这以先验概率p(w)的形式给出。在数据集 D = x 1 , x 2 , . . . x n D={x_1,x_2,...x_n} D=x1,x2,...xn和label y i y^i yi求解参数时,我们可以通过条件概率 p ( D ∣ w ) p(D|w) p(D∣w)表达,贝叶斯定理的形式为:
p ( w ∣ D ) = p ( D ∣ w ) p ( w ) p ( D ) p(w|D)=\frac{p(D|w)p(w)}{p(D)} p(w∣D)=p(D)p(D∣w)p(w)
通过后验概率 p ( w ∣ D ) p(w|D) p(w∣D),在观察到D之后估计w的不确定性。 p ( D ∣ w ) p(D|w) p(D∣w)由观察数据集D来估计,可以被看成参数向量w的函数,被称为似然函数(likelihood function)。它表达了在不同的参数向量w下,观测数据出现的可能性的大小
后验概率
p ( w ∣ D ) ∝ p ( D ∣ w ) p ( w ) p(w|D)\propto p(D|w)p(w) p(w∣D)∝p(D∣w)p(w)
1.2贝叶斯角度
在李宏毅老师的课中,我们可以很直觉的看到:我们想要的事情就是:根据m个输入 X = ( x 1 , x 2 , . . . x m ) X=(x_1,x_2,...x_m) X=(x1,x2,...xm)组成的数据集和它们对应的目标值 y ( y 1 , y 2 , . . . y m ) y(y_1,y_2,...y_m) y(y1,y2,...ym)。在给定输入变量x的新值情况下,对目标变量y进行预测。从贝叶斯的角度来看,y是具有不确定性的。在实际情况中,y具有的不确定性其实使数据被噪声干扰的结果。
现在我们假设,给定x,对应的y值服从于正态分布,分布均值为y(x,w),估计正态分布参数( μ , σ 2 \mu, \sigma^2 μ,σ2),求极大似然值。则:
p ( y ∣ x , w , β ) = p ( y ∣ y ( x , w ) , β − 1 ) = N ( y ∣ y ( w , x ) , β − 1 ) p(y|x,w,\beta)=p(y|y(x,w),\beta^{-1})=N(y|y(w,x),\beta^{-1}) p(y∣x,w,β)=p(y∣y(x,w),β−1)=N(y∣y(w,x),β−1)
为了符号统一,我在这里定义了精度参数 β \beta β,它对应于分布方差的倒数。
上式可解释为: p ( y ∣ x , w , β ) p(y|x,w,\beta) p(y∣x,w,β)表示样本 ( x , y ) (x,y) (x,y)的输出y关于输入特征x、模型参数w以及样本分布方差 β \beta β的概率密度函数,其服从于 N ( y ∣ y ( w , x ) , β − 1 ) ) N(y|y(w,x),\beta^{-1})) N(y∣y(w,x),β−1))的正态分布。
高斯
1.3似然函数
在我们进行采集数据会采用独立同分布的方式来进行采集,所以可以通过最大似然方法,来决定参数w和 β \beta β的值
p ( y ∣ x , w , β ) = ∏ n = 1 m N ( y ∣ y ( w , x ) , β − 1 ) p(y|x,w,\beta)=\prod_{n=1}^{m}N(y|y(w,x),\beta^{-1}) p(y∣x,w,β)=n=1∏mN(y∣y(w,x),β−1)
N ( y ∣ y ( w , x ) , β − 1 ) = 1 2 π β − 1 e x p ( y − y ( x , w ) 2 2 ( β − 1 ) 2 ) N(y|y(w,x),\beta^{-1})=\frac{1 }{\sqrt{2\pi } \beta^{-1}}exp(\frac{y-y(x,w)^2}{2(\beta^{-1})^2}) N(y∣y(w,x),β−1)=2πβ−11exp(2(β