【统计学习系列】多元线性回归模型（二）——模型的参数估计I：点估计

最新推荐文章于 2024-08-02 23:42:46 发布

Mikey_Sun

最新推荐文章于 2024-08-02 23:42:46 发布

阅读量5.5k

点赞数 7

分类专栏：统计学习文章标签：多元回归机器学习统计学习

本文链接：https://blog.csdn.net/qq_43382509/article/details/103221253

版权

本文介绍了多元线性回归模型的参数估计方法，包括最小二乘法（OLS）和极大似然估计（ML）。通过最小二乘法，找到使残差平方和最小的参数估计，公式为 β^=(XTX)^{-1}XTy。极大似然估计同样得到相同结果，但基于样本的联合概率密度函数。两种方法得到的误差项标准差估计不同。文章适合有一定凸优化和线性代数基础的读者。

摘要由CSDN通过智能技术生成

文章目录

1. 前文回顾
2. 最小二乘法估计（Ordinary Least Squared Estimate, OLS）
3. 极大似然估计（Maximum Likelihood Estimate, ML）
4. 结论
5. 新问题的提出
- 参考文献
写在最后

【更新日志】
3/3/2020 对部分公式中出现的错误进行了修正
4/5/2020 修改了文章标题

1. 前文回顾

在上一篇文章中，我们建立了多元线性回归模型，以及模型的相关假设，并给出了对应的样本模型（详情请见：【统计学习系列】多元线性回归模型（一）——模型的建立与基本假设）（~~别问我为什么点开404，因为这一章的内容太多我还在补充中，暂未开放~~）：
$y_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i , \ i=1,...,N$ 其中：
$\bm{\epsilon} = (\epsilon_i)_{N \times 1} \thicksim N(0,\bm{I_n}\sigma^2)$
因此，需要估计的参数有 p + 2 个：β₀, β₁, …, β_p, σ。我们如何利用样本来估计模型参数呢？我们的一般思路是：1）制定评价标准，2）在给定标准下寻找最优参数。这篇文章主要介绍最小二乘估计法和极大似然估计法这两种方法。话不多说，让我们开始探寻参数估计的秘密吧！

注：本篇涉及大量数学定理推导。尽管作者力求内容通俗易懂，但同时也希望保证证明的严谨性。因此在参数估计的推导中，我会把证明思路与过程尽可能清晰、完整地展示出来，这可能需要读者具有一定程度的凸优化问题求解和线性代数的基础。实操应用类读者可直接跳过2、3两章，而直接阅读第4章结论。

2. 最小二乘法估计（Ordinary Least Squared Estimate, OLS）

如果将 N 组样本对 (y_i, x_i) 看做是一个 p+1 维实空间中的N个点，那么我们现在要做的就是在空间中找到一个 p 维超平面，来尽可能“好”的拟合空间中的这N个样本的点。什么样的指标可以衡量这种拟合的好坏呢？样本点到拟合平面的距离则是一个衡量拟合好坏的测量工具：当点到平面距离和越小，说明估计量与真实值之间的“距离”越小（离得越近），模型对样本数据的拟合情况越好；而点到平面距离和越大，说明估计量与真实值之间的“距离”越大（离得越远），模型对样本数据的拟合情况越差。而对于距离的度量，我们可以使用两点差值的平方这一指标：
$distance(y_i, \hat{y}_i) = (y_i - \hat{y}_i)^2$
注1：使用平方而非绝对值是为了后边方便求导。
注2：这里的表述并不严谨。作为距离的测度，我们应该使用范数（例如2-范数）。其本质是因为定义范数作为距离的欧式空间是一个赋范线性空间。

最小二乘估计法的核心思想是：找到一组参数 β ，使得“样本点到平面的距离和最小”，或者说最小化残差平方和。用数学语言可以表示为：

$\min_{\beta_0, \beta_1,...,\beta_p} RSS(\beta_0, \beta_1,...,\beta_p) \\ \hskip{1.5em} = \sum_{i=1}^{N}(y_i - f(\bm{x_i} ))^2 \\ \hskip{5em} = \sum_{i=1}^{N}(y_i - \beta_0 - \sum_{j=1}^{p} x_{ij} \beta_j)^2$

注1：利用这一准则成立的合理前提是：(x_i, y_i)是从总体一种独立抽取的随机样本。若样本不满足随机性，y_i与x_i也应该条件独立。

注2：在利用这一准则进行参数估计时，其过程本身并不蕴含任何假设条件（即该过程并不蕴含模型的有效性假设）

为方便计算，我们首先将RSS的表达式改写为矩阵运算形式：
$\bm{\beta} ) = (\bm{y} - \bm{X} \bm{\beta} )^T (\bm{y} - \bm{X} \bm{\beta} )$

其中：
$\bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots\\ \beta_p \end{bmatrix}_{(p+1) \times1}, \space \space \space \space \space \bm{y} = \begin{bmatrix} y_0 \\ y_1 \\ \vdots\\ y_N \end{bmatrix}_{N \times1}, \space \space \space \space \space \bm{X} = \begin{bmatrix} \space 1 \space\space x_{11} \space\space \dots \space\space x_{1p} \\ \space 1 \space\space x_{21} \space\space \dots \space\space x_{2p} \\ \vdots \space \space\space \space \space \vdots \space \space \space \space \space ⋱ \space \space \space \space \vdots\\ \space 1 \space\space x_{N1} \space\space \dots \space\space x_{Np} \end{bmatrix}_{N \times (p+1)}$