数模学习（七）--- 多元线性回归-CSDN博客

本文链接：https://blog.csdn.net/Shea111/article/details/107226338

回归分析是数据分析的基础，尤其在机器学习中占有重要地位。本文主要探讨多元线性回归，介绍回归思想、相关性、因变量与自变量、回归分析的使命及分类，包括线性回归、0-1回归、定序回归、计数回归和生存回归。重点讲解了一元线性回归，包括线性理解、回归系数、内生性问题以及如何处理异方差和多重共线性问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

回归分析是数据分析中最基础也是最重要的分析工具，许多数据分析的问题，都可以采用回归的思想去解决，机器学习中回归也是需要学习的很重要的内容之一；当今回归分析的任务是：通过研究自变量X和因变量Y的相关关系，尝试去解释Y的形成机制，进而达到通过X去预测Y的目的。（感觉跟插值和拟合希望达到的目的差不多orz）
常见的回归分析有五类：线性回归、0-1回归、定序回归、计数回归和生存回归，它们划分的依据是因变量Y的类型，这里我们主要讲线性回归。

一引入

1.1 回归的思想¹

回归分析： 研究X和Y之间相关性的分析
关于它的三个关键词：

相关性
因变量Y
自变量X

1.2 相关性

相关性 $\neq$ 因果性
在这里插入图片描述
因为许多情况下我们无法去探究严格的因果关系，所以当前比较好的能替代它的方法就是通过回归分析，研究它们之间相关关系

1.3 因变量Y

在实际应用中，Y常常是我们需要研究的那个核心变量

因变量类型	举例
连续数值型变量	研究一段时间内GDP的增长趋势
0-1型变量	判断病人是否患病，0为否，1为是
定序型变量	根据喜欢成都区分，1~5喜欢程度依次递增
计数型变量	一学期内上课一共迟到了几次，为非负整数
生存型变量	在统计时，会有部分个体（比如人）在计算时不存在，需要设定个标准（如60岁作为截断年龄）

1.4 自变量X

也可以这么定义：X是解释变量，Y是被解释变量
回归分析的任务即：通过研究X和Y的关系，能够达到之后通过X预测出Y

1.5 回归分析的使命

使命一： 识别并判断出哪些X与Y是真的相关，那些不是，统计学中有一个非常重要的领域，为“变量选择”（逐步回归法）
使命二： 在去除了和Y不相关的X变量后，还需要确定这些和Y有关的X变量，与Y的相关关系是正的还是负的呢
使命三： 在确定了重要的X变量后，我们需要对不同的X给予不同的权重，来体现它们的重要性程度
总的来说，回归分析需要完成的使命就是：
1. 识别重要变量
2. 判断相关性的方向
3. 要估计权重（回归系数）

1.6 回归分析的分类

类型	模型	Y的特点	例子
线性回归	OLS、GLS(最小二乘)	连续数值型变量	GDP、产量、收入
0-1回归	logistic回归	二值变量（0-1）	是否违约、是否得病
定序回归	probit定序回归	定序变量	等级评定（优良差）
计数回归	泊松回归（分布）	计数变量	每分钟车流量
生存回归	Cox等比例风险回归	生存变量（阶段数据）	企业、产品的寿命

1.7 数据的分类

横截面数据（Cross Sectional Data）： 在某一时点手机的不同对象的数据，如大一新生体测得到的数据、发放问卷得到的数据
时间序列数据（Time Series Data）： 对同一对象在不同时间连续观察所取得的数据，例如从出生到现在，我们体重变化的数据
面板数据（Panel Data）： 横截面数据与时间序列数据总和起来的一种数据资源，如2010-2020我国各省份GDP的数据

1.8 不同数据类型的处理方法

数据类型	常见建模方法
横截面数据	多元线性回归
时序数据	移动平均、指数平滑、ARIMA、GARCH、VAR、协积
面板数据	固定效应和随机效应、静态面板和动态面板

在数模比赛中，前两种数据类型比较常见；而对于面板数据，通常是经管类学生在中级计量经济学中才会学到利用的模型
横截面数据往往运用回归来建模，通过回归得到自变量与因变量的相关关系以及自变量的重要程度
时间序列数据往往用于预测，时序模型可以用得很多，ML中也有RNN、LSTM之类的工具

1.9 数据的收集

宏观数据：

二一元线性回归

一元线性我们之前在拟合讲过啦，可以先去复习一下最小二乘下的一元线性拟合（也出现在ML中所用的Loss Function损失函数），在回归中我们把损失函数称为残差平方和

2.1 一元线性回归模型

$假设x是自变量，y是因变量，且满足如下线性关系：\\ y_{i}=\beta_{0}+\beta_{1}x_{i}+\mu_{i} \\ \\ \beta_{0}和\beta_{1}为回归系数，\mu_{i}为无法观测的且满足一定条件的扰动项 \\ \\ 令预测值\hat{y_{i}} = \hat{\beta_{0}}+\hat{\beta_{1}}x_{i} \\ \\ \\ 其中\hat{\beta_{0}},\hat{\beta_{1}}=\mathop{argmin}\limits_{\beta_{0},\beta_{1}}({\color{blue}\sum\limits_{i=1}^{n}(y_{i}-\hat{y_{i}})^2}) = \mathop{argmin}\limits_{\beta_{0},\beta_{1}}(\sum\limits_{i=1}^{n}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})^2) \\ \hat{\beta_{0}},\hat{\beta_{1}} = \mathop{argmin}\limits_{\beta_{0},\beta_{1}}(\sum\limits_{i=1}^{n}(\hat{\mu_{i}})^2) \\ \\ \\ 我们称\hat{\mu_{i}}=y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i}为残差$