最小二乘思想
已知:模型 和 数据
求解:模型满足所有数据?
退而求其次:
- 近似解,模型能在数据上达到“最佳拟合”
- 最佳拟合?
- 所有数据 与 模型估值 的距离和最小 min(真实值-理论值)
- 所有数据 与 模型估值 的绝对值和最小 min|真实值-理论值|
- ......
- 最佳拟合?
历史渊源:
- 早在19世纪,勒让德就认为让“误差的平方和最小”估计出来的模型是最接近真实情形的。高斯建立了一套正态误差分析理论,证明了确实是使误差平方和最小的情况下系统是最优的。
- 误差分析理论其实说到底就一个结论:观察值的误差服从标准正态分布。
- 这个目标函数取得最小值时的函数参数,这就是最小二乘法的思想,所谓“二乘”就是平方的意思。那么,最小二乘法其实就是用来做函数拟合的一种思想。
求解方法:
- 理论上可以用导数法、几何法;
- 工程上可以用梯度下降法;
- 最常用线性回归,案例参考
极大似然估计
- 思想:最大化当前这个样本集发生的概率,
- 专业:最大化似然函数(likelihood function),而似然函数就是样本的联合概率。
- 通常都会假设样本是相互独立的,因此联合概率就等于每个样本发生的概率乘积。
- 一般来说,对似然函数取log以将连乘变成累加。
- 目的:防止溢出和方便求导。
- 目的:防止溢出和方便求导。
极大化似然函数等价于极小化最小二乘法的代价函数,以误差平方和作为最佳拟合准则的合理性。
最小二乘法其实就是误差满足正态分布的极大似然估计!
深度学习loss/cost function
损失函数/代价函数:衡量模型预测值与真实值之间的距离。
在极大似然估计理论下,使用这些特定的损失函数训练出来的模型在理论上就是最优的。
虽然损失函数有很多种,但每种类型的问题都有事实上确定的损失函数。
- 数值回归问题 用误差平方损失
- 分类问题 用交叉熵损失