线性回归模型中误差函数为平方和的由来。
预测结果和真实结果 满足以下式子:
一般来讲,其中服从高斯分布,误差满足平均值为0的高斯分布,即正态分布。
误差发生的概率即x和y的条件概率,所以
即一个样本的结果概率,我们想要的结果是能够在全部样本上的预测最准,也就是概率面积最大,所以想到最大似然估计。
此处补充最大似然估计定义:
设总体样本X的分布密度形式已知,未知(若X为离散变量,则概率密度表示为),其联合概率密度为
离散变量时为
一般对 取对数,在计算使其最大对应的。
回到线性回归模型,最大似然估计,就是
因为和均为定值,所以最大化,就是最小化
这个式子就是线性回归中我们要最小化的,即最小二乘法。