一般回归问题、线性回归与模型的正确设定

最新推荐文章于 2022-01-16 20:07:11 发布

「已注销」

最新推荐文章于 2022-01-16 20:07:11 发布

阅读量781

点赞数 1

分类专栏：千里路文章标签：统计学线性代数统计模型

本文链接：https://blog.csdn.net/Analy101/article/details/112296010

版权

本文首先介绍了回归问题的基本概念和均方误作为评估预测效果的指标，指出最佳预测函数即条件期望。然后，阐述了线性回归模型，包括仿射函数和最优线性最小二乘预测，并探讨了线性回归模型与最优线性最小二乘预测之间的关系。最后，讨论了线性回归模型的正确设定条件及其重要性。

摘要由CSDN通过智能技术生成

1 一般回归问题

一般来说，计量经济学教材会从线性回归讲起，但这里再在线性回归之前，理一理更一般性的回归问题。

先看定义一下什么叫回归：

定义1 回归函数（Regression Function）： $\mathbb{E}(y|\mathbf{x})$ 就是 $y$ 对 $\mathbf{x}$ 的回归函数。

再定义一个度量预测得好不好的指标：

定义2 均方误（Mean Squared Error，MSE）：假设用 $g(\mathbf{x})$ 预测 $y$ ，则预测量 $g(\mathbf{x})$ 的均方误为 $\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2$

最好的预测函数的形式是什么？以下定理表明，最好的预测函数，恰恰就是回归函数即条件期望。

定理1 MSE的最优解： $\mathbb{E}(y|\mathbf{x})$ 是以下问题的最优解：
$\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2$
其中 $\mathbb{F}$ 是所有可测和平方可积函数的集合（space of all measurable and square-integrable functions）：
$\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\}$

在该定理中，直接求解最值问题比较复杂，需要用到变分法，用构造法证明该定理比较简单，直接对 $\text{MSE}(g)$ 做分解即可。令 $g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x})$ ，则有
$\begin{aligned} \text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2 \end{aligned}$