在线性回归中,损失函数是【最小二乘法】,但是为什么使用该损失函数呢?【最小二乘法】与【极大似然估计】又有什么关系呢?
线性回归:最小二乘与极大似然估计
什么是“似然”?
在统计学中, 似然与概率是相对的概念 。已知样本的数据分布,估计某个采样结果的可能性为概率估计;已知样本分布的结果,估计该分布的具体参数则为似然估计。
极大似然估计
假设:样本是独立同分布的(大多数机器学习模型的前提假设就是样本独立同分布),且样本服从正态分布(随机变量之和的分布近似服从正态分布)。
已知样本数据,求其服从的最有可能的分布,即求该样本分布的极大似然估计:
也即,求分布的具体参数 θ \theta θ;
也即,求使得每个样本同属于某正态分布的概率最大的参数;
又因为样本是独立同分布的,即等于求取每个样本的概率密度的连乘:
L ( θ ) = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; θ ) L(\theta)=\prod_{i=1}^{N} p(y^{(i)}|x^{(i)};\theta) L(θ)=∏i=1Np(y(i)∣x(i);θ)
又因为概率(小于1的数)的连乘会是一个很小的数,上式可能直接会下溢到零,所以我们通过取对数log将概率的连乘转化为概率的求和(使用对数不会影响我们求取目标函数最大值,因为log函数是单调递增的,映射后不会影响变量之间的相对大小):
l o g ( L ( θ ) ) = l o g ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; θ ) = ∑ i = 1 N l o g ( p ( y ( i ) ∣ x ( i ) ; θ ) ) log(L(\theta))=log\prod_{i=1}^{N} p(y^{(i)}|x^{(i)};\theta)=\sum_{i=1}^{N} log(p(y^{(i)}|x^{(i)};\theta)) log(L(θ))=log∏i=1Np(y(i)∣x(i);θ)=∑i=1Nlog(p(y(i)∣x(i);θ))
求解最大化对数似然函数即可求得分布参数 θ \theta θ:
arg max θ L ( θ ) = arg max θ ∑ i = 1 N l o g ( p ( y ( i ) ∣ x ( i ) ; θ ) ) \argmax_{\theta}L(\theta)=\argmax_{\theta}\sum_{i=1}^{N} log(p(y^{(i)}|x^{(i)};\theta)) argmaxθL(θ)=argmaxθ∑i=1Nlog(p(y(i)∣x(i);θ))
为什么可以用误差平方和来表示线性回归问题的损失函数?
因为误差可被认为是服从正态分布的随机变量。
对于预测值 h θ ( x ( i ) ) h_{\theta}(x^{(i)}) hθ(x