原文链接
http://blog.csdn.net/shaohuacheng/article/details/51985944
Andrew Ng的公开课机器学习
线性回归中我们建立了一个线性模型 h(x(i))=θTx(i) ,并计算误差函数 J(θ)=∑mi=1(h(x(i))−y(i))2=∑mi=1(θTx(i)−y(i))2
为了选择合适的
θ
使得
J(θ)
最小,我们可以采取两种方法:
1.梯度下降法
2.最小二乘法
具体的在上一节中已有讲述。
本文从概率上解释,为何在计算
J(θ)
时,我们选择预测值与实际值差值的平方作为误差衡量?
实质上,这是我们认为误差满足高斯分布时的极大似然估计。
假设样本的实际关系为
y(i)=θTx(i)+ϵ(i)
,其中
ϵ(i)
代表一些无法捕获的噪声。假设噪声满足高斯分布
N(0,σ2)
,即
P(ϵ(i))=12π√σexp(−(ϵ(i))22σ2)
。
即给定
x(i)
和参数
θ
时,函数值服从高斯分布:
P(y(i)|x(i);θ)=12π√σexp(−(y(i)−θTx(i))22σ2)
。
换言之,给定样本值和参数,函数值
y(i)
服从
N(θTx(i),σ2)
。
则参数的极大似然函数为:
对数似然函数:
为了使似然函数最大,则需最小化
即最小化
上述推导说明了,线性回归的参数,实质上是假设误差满足高斯分布且独立同分布的情况下的极大似然估计。
补充下似然函数的概念