为什么最小二乘法对误差的估计要用平方?
今天看了Stanford Andrew Ng讲的《机器学习》,明白了为什么最小二乘法对误差的估计要用平方,而不是绝对值或是四次方。
简单地说,之所以要用这种规定,是因为,取二次方的时候,对参数的估计是当前样本下的最大似然估计。下面给出证明。
记样本为(x(i),y(i)),对样本的预测为y^(i)|θ该记法表示该预测依赖于参数θ的选取。我们有:
y=y^|θ+ϵ
其中,ϵ是一个误差函数,我们通常认为其服从正态分布即
ϵ∼N(0,σ2)
因此有
y−y^|θy∼N(0,σ2)∼N(y^|θ,σ2)
要求θ的极大似然估计,即是说,我们现在得到的这个真实存在的y在θ不同的取值下,出现概率最大,我们来看这个概率。令
L(θ)=P(y|x;θ)=∏i=1m12π−−√σexp(−(y(i)−y^(i)|θ)22σ)
为了简化计算,令
l(θ)=logL(θ)=mlog12π−−√+∑i=0m−(y(i)−y^(i)|θ)22σ
要让L(θ)最大,即需让l(θ)最大,即让∑mi=0(y(i)−y^(i)|θ)2取到最小值。
综上,当误差函数定为平方时,参数θ是样本的极大似然估计。