最小均方差的概率阐述(Probabilistic interpretation)

当面对一个像线性回归的回归问题时,为什么最小方差代价函数(损失函数)是一个好的解决方案呢?在这一节的内容,我们通过概率论的视角会发现最小方差回归是一个很自然的算法。

我们不妨假设,目标变量与输入变量有如下关于:

y ( i ) = θ T x ( i ) + ϵ ( i ) , y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}, y(i)=θTx(i)+ϵ(i),

上式中的 ϵ ( i ) \epsilon^{(i)} ϵ(i)是一个误差项,表示模型未捕捉的特征或随机噪声。我们假设这些 ϵ ( i ) \epsilon^{(i)} ϵ(i)是独立同分布于均值为0、方差为 σ 2 \sigma^2 σ2的高斯分布,记作 ϵ ( i ) ∼ N ( 0 , σ 2 ) \epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2) ϵ(i)N(0,σ2) ϵ ( i ) \epsilon^{(i)} ϵ(i)的概率密度为:

p ( ϵ ( i ) ) = 1 2 π σ exp ( − ( ϵ ( i ) ) 2 2 σ 2 ) . p(\epsilon^{(i)}) = \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(\epsilon^{(i)})^2}{2 \sigma^2} \right). p(ϵ(i))=2π σ1exp(2σ2(ϵ(i))2).

替换一下变量则有:

p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) . p(y^{(i)} | x^{(i)}; \theta) = \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right). p(y(i)x(i);θ)=2π σ1exp(2σ2(y(i)θTx(i))2).

p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} | x^{(i)}; \theta) p(y(i)x(i);θ)是对于给定输入特征 x ( i ) x^{(i)} x(i)和参数 θ \theta θ时, y ( i ) y^{(i)} y(i)的条件概率分布。需要注意的是它不能写成 p ( y ( i ) ∣ x ( i ) , θ ) p(y^{(i)} | x^{(i)}, \theta) p(y(i)x(i),θ)。因为 θ \theta θ不是随机变量, θ \theta θ是待沽参数,未知却是固定值。

给定 X X X(包含所有的数据集 x ( i ) x^{(i)} x(i))和 θ \theta θ,如何确定 y ( i ) y^{(i)} y(i)的分布?这个概率由 p ( y ⃗ ∣ X ; θ ) p(\vec{y}|X; \theta) p(y X;θ)表示,它是 y ⃗ \vec{y} y 关于 θ \theta θ的函数。而当我们把它看成是一个关于 θ \theta θ的函数时,这个函数就可以称为似然函数

L ( θ ) = L ( θ ; X , y ⃗ ) = p ( y ⃗ ∣ X ; θ ) . L(\theta) = L(\theta; X, \vec{y}) = p(\vec{y} | X; \theta). L(θ)=L(θ;X,y )=p(y X;θ).

又我们假设 ϵ ( i ) \epsilon^{(i)} ϵ(i)是独立的,上式可改写为:

L ( θ ) = ∏ i = 1 m   p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m   1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) \begin{aligned} L(\theta) &= \prod_{i=1}^m \ p(y^{(i)} | x^{(i)}; \theta) \\ &= \prod_{i=1}^m \ \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ \end{aligned} L(θ)=i=1m p(y(i)x(i);θ)=i=1m 2π σ1exp(2σ2(y(i)θTx(i))2)

为了求极大似然,使用对数似然函数可以简化我们的计算:

ℓ ( θ ) = log  L ( θ ) = log ∏ i = 1 m 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = ∑ i = 1 m log 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = m log 1 2 π σ − 1 σ 2 ⋅ 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 . \begin{aligned} \ell(\theta) &= \text{log} \ L(\theta) \\ &= \text{log} \prod_{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ &= \sum_{i=1}^m \text{log} \frac{1}{\sqrt{2 \pi} \sigma} \text{exp} \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma^2} \right) \\ &= m \text{log} \frac{1}{\sqrt{2 \pi} \sigma} - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2.\\ \end{aligned} (θ)=log L(θ)=logi=1m2π σ1exp(2σ2(y(i)θTx(i))2)=i=1mlog2π σ1exp(2σ2(y(i)θTx(i))2)=mlog2π σ1σ2121i=1m(y(i)θTx(i))2.

而这时我们就可以发现极大似然估计和最小均方差是同解的:

1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2 21i=1m(y(i)θTx(i))2

上式就是原始最小方差成本函数 J ( θ ) J(\theta) J(θ)

总结: 在之前的概率假设下,最小方差回归和寻找 θ \theta θ的极大似然估计是对应的。在这一系列假设下,最小方差回归是处理极大似然估计的直接方法。
需要注意一点,最后参数 θ \theta θ的选择和方差 σ 2 \sigma^2 σ2是无关的,实际上即使 σ 2 \sigma^2 σ2不知道我们也可推出已上结论。这一点在后面的指数族和生成线性模型中也会有应用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值