【机器学习入门】线性回归的概率解释

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shaohuacheng/article/details/51985944

Andrew Ng的公开课机器学习

线性回归中我们建立了一个线性模型h(x(i))=θTx(i),并计算误差函数J(θ)=mi=1(h(x(i))y(i))2=mi=1(θTx(i)y(i))2

为了选择合适的θ使得J(θ)最小,我们可以采取两种方法:
1.梯度下降法
2.最小二乘法

具体的在上一节中已有讲述。
本文从概率上解释,为何在计算J(θ)时,我们选择预测值与实际值差值的平方作为误差衡量?
实质上,这是我们认为误差满足高斯分布时的极大似然估计。

假设样本的实际关系为y(i)=θTx(i)+ϵ(i),其中ϵ(i)代表一些无法捕获的噪声。假设噪声满足高斯分布N(0,σ2),即P(ϵ(i))=12πσexp((ϵ(i))22σ2)
即给定x(i)和参数θ时,函数值服从高斯分布:
P(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)
换言之,给定样本值和参数,函数值y(i)服从N(θTx(i),σ2)
则参数的极大似然函数为:

L(θ)=i=1mP(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

对数似然函数:
logL(θ)=i=1mlogP(y(i)|x(i);θ)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσi=1m(y(i)θTx(i))22σ2

为了使似然函数最大,则需最小化

i=1m(y(i)θTx(i))22σ2

即最小化

J(θ)=i=1m(y(i)θTx(i))22

上述推导说明了,线性回归的参数,实质上是假设误差满足高斯分布且独立同分布的情况下的极大似然估计。

展开阅读全文

没有更多推荐了,返回首页