在线性回归问题中,为了对参数θ求解,使用了代价函数J(θ)=∑(i=1,2,...m) (y(i)-θx(i))²/2,这里给出使用该函数的概率上的解释。
首先,假设其中,ε(i)表示未被建模的特征的影响造成的误差,并且其服从均值为0的高斯分布。关于这些假设的原因并不是很清楚。因此可以得到误差的密度函数
,由上述两个公式可以得到
在这里要提一下似然估计的概念,关于最大似然估计是以前概率论学过的,不过当时就是死记了一个公式,这回遇到的时候完全不知道是干什么,经过多方查询资料大概有了头绪,个人理解就是对于一个公式p(y|x,θ)=k,如果是将其看作关于y的函数,那就表示在参数已知为θ的情况下,不同的样本(x,y)出现的概率,而如果将其看作关于θ的函数,则该函数就表示对于一个已知样本(x*,y*),当θ取不同值时,该样本出现的概率。而因为该样本是一个已知样本,也就是已经出现了,那么它出现的概率应该是很大的,那么就可以求使得该函数值最大的θ,这就是最大似然估计。说的好像有点乱,希望有高手看到能更清楚的解释下。
将最大似然估计运用到我们前面的问题上,就是对于m个训练样本集合,其组合概率密度函数也就是似然函数为
进行最大似然估计时通常对其取对数以方便计算,上式中的L(θ)取对数可以得到
从中已看出,要是似然函数值取最大,也就要令∑(i=1,2,...m) (y(i)-θx(i))²/2最小,和开头给出的代价函数相同。