最近在看斯坦福cs229的讲义,其中第一课有提到线性模型中平方损失函数的由来,觉得挺好的,记录一下。
在机器学习中,平方损失函数
J(θ)=12(y−y¯)2
是比较常用的一个损失函数,我们训练线性回归模型时通常通过最小化这个函数来学习模型,可是其中的原理是什么呢?我们凭直觉可以感受到平方损失函数越小,说明 y¯ 和 y 越接近,模型越好。下面通过概率论的知识从数学上来证明平方损失函数的作用。
假设有一个样本对集合
y(i)=θTx(i)+ϵ(i),
其中参数 θ 是要学习的参数, ϵ 是模型输出与真实值的误差。
误差 ϵ 产生的原因可能是模型欠拟合没有抓住数据的全部特征,也可能是随机噪声。我们进一步假设 ϵ(i) 的分布是按照均值为0,方差为 σ2 的高斯模型独立同分布的,用公式表示为 ϵ(i)∼N(0,σ2) 。 那么 ϵ(i) 的密度是