中科院算法研究员带你学算法(2)——线性回归(2)

最新推荐文章于 2024-09-17 19:31:15 发布

Forever2234

最新推荐文章于 2024-09-17 19:31:15 发布

阅读量185

点赞数

文章标签：机器学习深度学习神经网络自动驾驶

本文链接：https://blog.csdn.net/ForeverZH0204/article/details/115005976

版权

本文深入探讨线性回归的最小二乘法优化基础，从正态分布的中心极限定理出发，阐述误差的正态分布假设，然后通过极大似然估计解释最小二乘法的合理性。同时，文章介绍了用于评估模型效果的R2指标，并对比了频率学派和贝叶斯学派在统计学上的观点。

摘要由CSDN通过智能技术生成

在上一篇文章中，我们通过最小二乘法得到了线性回归问题中，最优参数的闭式解：
$\beta^{ls} = (X^TX)^{-1}X^TY \tag{1}$
但是为什么在优化时使用最小二乘法呢？

从正态分布到最小二乘法

在这一小节，我们重点阐述所有推导的依据，首先要给出一个关键的定理，中心极限定理，作为后续的基础。

中心极限定理

中心极限定理说明大量的独立同分布变量共同作用的结果，会逐渐趋近一个正态分布，我们可以认为，也是假设预测值和真实值之间的误差 $\epsilon$ ，来源于大量的独立同分布(iid, independently identically distribution)效果的叠加，这里的独立来源于不同干扰项之间相互不影响，但是同分布的要求较为牵强，可认为是由于产生的环境都较为类似故近似认为是同分布，但是正态分布的常见性使得这个假设的适用范围很广，一般会有较好的效果。

可记

$\epsilon_i=y-x_i^T\beta \tag{2}$
满足 $\epsilon_i \sim \bold{N} ~(\mu, \sigma^2)$ ，其中 $\beta$ 为真实参数。

而其中误差的均值可以通过bias调整到零，即将bias项增加 $\mu$ ，则 $\epsilon_i = y-x_i^T\beta-\mu$ ，此时其对应的正态分布变为 $\bold{N}(0, \sigma^2)$ ，成功将分布中心移到原点处。。
引入了正态分布之后，可以据此进行下一步的讨论。

极大似然估计

使用乘法原理得到如下的联合分布，以描述当前数据集

$\begin{aligned} \bold{P}(\epsilon|X, Y)&=\prod \bold{P}(\epsilon_i)\\ &=\prod_i \frac{1}{\sqrt{2 \pi}}\exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\\ &=\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)^N\prod_i \exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg) \end{aligned} \tag{3}$

可认为在类似环境下产生的数据方差一样，即认为 $\epsilon_i$ 独立同分布。这个iid的底气就比上面那个假设要强。

则上式取对数之后有
$\begin{aligned} \log\big(\bold{P}(\epsilon|X, Y)\big)&=\log\bigg[\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)^N\prod_i \exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\bigg]\\ &=\sum_i \log\bigg(\frac{1}{\sqrt{2 \pi}}\exp\bigg(-\frac{(\epsilon_i )^2}{2\sigma ^2}\bigg)\bigg)\\ &=N\log\bigg(\frac{1}{\sqrt{2 \pi}}\bigg)+\sum_i -\frac{(\epsilon_i )^2}{2\sigma ^2}\\ &=C-\frac{1}{2\sigma ^2}\sum_i \epsilon_i ^2 \tag{4} \end{aligned}$