当面对一个像线性回归的回归问题时,为什么最小方差代价函数(损失函数)是一个好的解决方案呢?在这一节的内容,我们通过概率论的视角会发现最小方差回归是一个很自然的算法。
我们不妨假设,目标变量与输入变量有如下关于:
y ( i ) = θ T x ( i ) + ϵ ( i ) , y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}, y(i)=θTx(i)+ϵ(i),
上式中的 ϵ ( i ) \epsilon^{(i)} ϵ(i)是一个误差项,表示模型未捕捉的特征或随机噪声。我们假设这些 ϵ ( i ) \epsilon^{(i)} ϵ(i)是独立同分布于均值为0、方差为 σ 2 \sigma^2 σ2的高斯分布,记作 ϵ ( i ) ∼ N ( 0 , σ 2 ) \epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2) ϵ(i)∼N(0,σ2)。 ϵ ( i ) \epsilon^{(i)} ϵ(i)的概率密度为:
p ( ϵ ( i ) ) = 1 2 π σ exp ( − ( ϵ ( i ) ) 2 2 σ 2 ) . p(\epsilon^{(i)}) = \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(\epsilon^{(i)})^2}{2 \sigma^2} \right). p(ϵ(i))=2πσ1exp(−2σ2(ϵ(i))2).
替换一下变量则有:
p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) . p(y^{(i)} | x^{(i)}; \theta) = \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right). p(y(i)∣x(i);θ)=2πσ1exp(−2σ2(y(i)−θTx(i))2).
p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} | x^{(i)}; \theta) p(y(i)∣x(i);θ)是对于给定输入特征 x ( i ) x^{(i)} x(i)和参数 θ \theta θ时, y ( i ) y^{(i)} y(i)的条件概率分布。需要注意的是它不能写成 p ( y ( i ) ∣ x ( i ) , θ ) p(y^{(i)} | x^{(i)}, \theta) p(y(i)∣x(i),θ)。因为 θ \theta θ不是随机变量, θ \theta θ是待沽参数,未知却是固定值。
给定 X X X(包含所有的数据集 x ( i ) x^{(i)} x(i))和 θ \theta θ,如何确定 y ( i ) y^{(i)} y(i)的分布?这个概率由 p ( y ⃗ ∣ X ; θ ) p(\vec{y}|X; \theta) p(y∣X;θ)表示,它是 y ⃗ \vec{y} y关于 θ \theta θ的函数。而当我们把它看成是一个关于 θ \theta θ的函数时,这个函数就可以称为似然函数:
L ( θ ) = L ( θ ; X , y ⃗ ) = p ( y ⃗ ∣ X ; θ ) . L(\theta) = L(\theta; X, \vec{y}) = p(\vec{y} | X; \theta). L(θ)=L(θ;X,y)=p(y∣X;θ).
又我们假设 ϵ ( i ) \epsilon^{(i)} ϵ(i)是独立的,上式可改写为:
L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) \begin{aligned} L(\theta) &= \prod_{i=1}^m \ p(y^{(i)} | x^{(i)}; \theta) \\ &= \prod_{i=1}^m \ \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ \end{aligned} L(θ)=i=1∏m p(y(i)∣x(i);θ)=i=1∏m 2πσ1exp(−2σ2(y(i)−θTx(i))2)
为了求极大似然,使用对数似然函数可以简化我们的计算:
ℓ ( θ ) = log L ( θ ) = log ∏ i = 1 m 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = ∑ i = 1 m log 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = m log 1 2 π σ − 1 σ 2 ⋅ 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 . \begin{aligned} \ell(\theta) &= \text{log} \ L(\theta) \\ &= \text{log} \prod_{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ &= \sum_{i=1}^m \text{log} \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ &= m \text{log} \frac{1}{\sqrt{2 \pi} \sigma} - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2.\\ \end{aligned} ℓ(θ)=log L(θ)=logi=1∏m2πσ1exp(−2σ2(y(i)−θTx(i))2)=i=1∑mlog2πσ1exp(−2σ2(y(i)−θTx(i))2)=mlog2πσ1−σ21⋅21i=1∑m(y(i)−θTx(i))2.
而这时我们就可以发现极大似然估计和最小均方差是同解的:
1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2 21i=1∑m(y(i)−θTx(i))2
上式就是原始最小方差成本函数 J ( θ ) J(\theta) J(θ)。
总结: 在之前的概率假设下,最小方差回归和寻找
θ
\theta
θ的极大似然估计是对应的。在这一系列假设下,最小方差回归是处理极大似然估计的直接方法。
需要注意一点,最后参数
θ
\theta
θ的选择和方差
σ
2
\sigma^2
σ2是无关的,实际上即使
σ
2
\sigma^2
σ2不知道我们也可推出已上结论。这一点在后面的指数族和生成线性模型中也会有应用。