9.2 回归分析

夏驰和徐策

已于 2025-04-03 10:14:56 修改

阅读量1.1k

点赞数 4

分类专栏：概率论文章标签：概率论

于 2023-04-16 18:03:42 首次发布

本文链接：https://blog.csdn.net/tang7mj/article/details/130184846

版权

概率论专栏收录该内容

32 篇文章

订阅专栏

文章介绍了回归分析的学习路径，包括理解基本概念，选择合适的回归模型，数据收集和清理，模型拟合与评估，以及模型的应用和解释。强调了一元线性回归的核心概念，如自变量、因变量、回归系数和残差，并提到了模型的显著性检验和判定系数。同时，讨论了非线性回归和多元回归的处理方法，以及回归分析中的常见挑战和误区。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习目标：

回归分析是一种广泛应用于数据分析和预测的统计方法，可以用来探索自变量与因变量之间的关系并进行预测。我学习回归分析，我会采取以下步骤：

学习基本概念：回归分析中的基本概念包括自变量和因变量、回归系数、截距、残差等。我会花时间理解这些概念的含义和作用，以便更好地理解回归分析的原理和应用。
选择合适的回归模型：回归分析有许多不同的模型，如线性回归、多项式回归、逻辑回归等等。我会学习各种模型的优缺点以及何时应该选择哪种模型。
数据收集和清理：回归分析的结果受到数据质量的影响，所以我会花时间收集高质量的数据，并对数据进行清理和处理，例如删除异常值、填充缺失值等。
模型拟合和评估：拟合回归模型是回归分析的核心部分。我会使用统计软件拟合模型，并使用统计指标和图形来评估模型的拟合质量和可靠性。
模型应用和解释：一旦我拟合了回归模型，我会使用模型来预测未来值或解释自变量与因变量之间的关系。我会学习如何解释模型参数，如何进行因果推断等等。
进一步学习：回归分析是一个庞大而复杂的领域，我可能只是入门。我会继续学习高级回归技术，如岭回归、lasso回归、深度学习等，以拓展我的技能和知识。

更新与2025.4.3

【第9章】回归分析笔记 | 9.2 一元线性回归模型详解与最小二乘法推导

✍️ 前言

在实际生活中，我们经常会碰到两个变量之间的关联关系，比如：

身高与体重
广告费用与销售额
学习时间与考试成绩

这些变量之间是否存在某种“线性关系”？这正是回归分析（Regression Analysis）要研究的问题。本节，我们聚焦于最简单的情形——一元线性回归模型，带你一步步从公式出发，理解数学背后的逻辑与意义。

📌 一、什么是回归模型？

回归分析的本质就是构建一个数学模型，用一个变量 xx 去预测另一个变量 yy。

一元线性回归模型的一般形式为：

其中：

yy：因变量（被解释变量）
xx：自变量（解释变量）
β0\beta_0：截距，表示当 x=0x = 0 时的预测值
β1\beta_1：斜率，表示 xx 每增加1单位，yy 变化的期望值
ε\varepsilon：随机误差项，反映不可控的误差因素

📉 二、最小二乘法思想

我们要从样本数据中估计出未知参数 β0\beta_0、β1\beta_1，使得拟合的直线尽可能“靠近”数据点。

这时就引出一个核心思想：

用“最小二乘法”来最小化误差平方和。

具体地，给定 nn 组观测数据 (xi,yi)(x_i, y_i)，我们构建目标函数：

我们要找出能最小化这个 QQ 的参数 β^0\hat{\beta}_0 和 β^1\hat{\beta}_1。

🧮 最小二乘法的数学推导：让“误差最小”的那条线站出来！

一、最小二乘法为什么会出现？

假设我们有一组数据点 (x1,y1),(x2,y2),...,(xn,yn)(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)(x1,y1),(x2,y2),...,(xn,yn)，我们希望找一条直线：

来“穿过”这些点——也就是说，希望它能尽可能靠近这些点。那什么叫“靠近”呢？

我们设第 iii 个样本的真实值是 yiy_iyi，预测值是：

它们的**误差（残差）**为：

我们希望所有误差“尽可能小”。一个最自然的想法是让误差的平方和最小，即：

这个函数 SSS 就是我们要最小化的目标函数，这种方法就叫最小二乘法（Least Squares）。

二、如何推导出最优的 β^0,β^1\hat{\beta}_0, \hat{\beta}_1β^0,β^1？

我们就把 S(β^0,β^1)S(\hat{\beta}_0, \hat{\beta}_1)S(β^0,β^1) 看作一个关于两个变量的函数，对它们分别求偏导，然后让导数为 0，找极小值点。

1. 对 β^0\hat{\beta}_0β^0 求导：

令导数为0：

2. 对 β^1\hat{\beta}_1β^1 求导：

令导数为0：

三、联立求解：给出显式公式！

联立方程①和②，我们可以解出 β^1\hat{\beta}_1β^1 和 β^0\hat{\beta}_0β^0。

得到标准回归系数的估计公式为：

斜率（slope）：

截距（intercept）：

这里 xˉ\bar{x}xˉ 和 yˉ\bar{y}yˉ 是所有 xix_ixi 和 yiy_iyi 的平均值。

这个推导过程告诉我们：回归直线的斜率其实是协方差除以方差，而截距是将直线“移动”到均值点。

四、最小二乘法在实际中的用途

这套方法其实无处不在：

电商平台预测销售额 vs 广告投入；
医学研究中剂量 vs 疗效；
人工智能训练回归模型（比如房价预测）；
在神经网络中，损失函数很多也是基于最小二乘法的思想；

比如你用 Python 的 scikit-learn 库训练一个线性回归模型时，其底层就是用了最小二乘法。

五、我的学习感悟 🎯

其实就是高中和大学数学那套找极值的办法，即求导法。详见我的高等数学博客。

实际案例：身高与体重的回归直线

教材中举了一个经典例子，研究身高与体重的关系，数据如下（见图9.2-3）：

横轴 xxx：身高（cm）
纵轴 yyy：体重（kg）

散点图中每一个点代表一个个体。我们通过最小二乘法拟合出回归直线，并得到：

这表示：身高每增加1 cm，体重大致增加 0.984 kg。

从图中我们看到，拟合线穿过数据“中间”，点云围绕在直线周围，说明线性关系较强。

✍️ 三、回归系数的求解公式

通过求偏导令其为 0，最终可以推导出最小二乘估计值：

这两个就是我们常说的 回归方程的参数估计公式，代入原始数据就能求得一条拟合直线。

🧪 四、残差与拟合优度

每个样本点的误差称为残差（residual）：

回归分析的一部分工作，就是要研究这些残差是否满足正态性、独立性、方差齐性等统计假设，通常用以下两种方式来判断模型拟合情况：

残差图（Residual Plot）：是否随机分布？
R²（决定系数）：衡量解释变量对因变量的解释程度，范围在 [0,1]。

它表示“因变量的变异中，有多少比例被模型解释了”。比如 R2=0.95R^2 = 0.95R2=0.95，就表示 95% 的体重变化可以由身高解释，拟合效果非常好！

1️⃣ 什么是残差？

残差（residual）表示模型预测值和实际观测值之间的差异：

yiy_iyi：第 iii 个样本的真实观测值
y^i\hat{y}_iy^i：模型的预测值（即回归直线上的值）
eie_iei：残差，反映了预测与实际之间的误差

💡可以理解为：“残差越小，说明预测越准，模型越靠谱。”

2️⃣ 为什么要分析残差？

虽然你已经得到了回归直线，并看上去“还不错”，但别忘了：

再好的线，也不是所有点都贴着它走。

所以残差分析的目的，是用数学手段来判断：

模型有没有系统性偏差？
拟合是否均匀？
是否漏掉了重要的变量或模型形式有误？

3️⃣ 残差平方和（SSE）推导

我们定义：

总平方和（SST）：观测值与总体均值的偏差平方和
回归平方和（SSR 或 SSM）：预测值与均值的偏差平方和
残差平方和（SSE）：实际值与预测值的偏差平方和

这三者之间的关系是：

📌 这个分解公式非常关键，它揭示了：

SST 是数据的“总波动”
其中 SSR 是模型解释的部分
SSE 是模型没有解释掉的那部分

4️⃣ 决定系数 R2R^2R2 来了！

根据前面推导的分解公式，有：

如果模型拟合完美，SSE = 0，那么 R2=1R^2 = 1R2=1
如果模型完全没用，SSR = 0，那么 R2=0R^2 = 0R2=0

5️⃣ 标准残差（MSE 与 RMSE）

我们还可以定义模型的“平均残差大小”：

均方残差（MSE）：
标准残差（RMSE 或 SE）：

这个 sss 就是模型的“预测误差平均水平”。

6️⃣ 残差图与其解释

我们可以将残差 eie_iei 与 xix_ixi 或预测值 y^i\hat{y}_iy^i 作图，得到残差图：

情况	解释
点随机散布在零附近	模型合适
呈漏斗状	存在异方差
呈曲线趋势	模型漏了高次项
存在离群值	模型可能被极端点误导

📊 教材中图9.12 正是典型的残差图分析场景，对理解残差特性非常有帮助。

✍️ 七、我的理解总结

残差分析在我看来就像是“医生开出的化验单”：

拟合看着不错 ≠ 模型真的好
没分析残差，就像没查血压、心电图，怎么放心让它去做预测？

残差分析告诉我：建模只是第一步，验证和诊断才是成熟建模者的思维。

学生实验案例讲解

教材中还有一个学生小组实验，分析温度与电池电压之间的关系，数据如下（见图9.2-5）：

温度 (℃)	电压 (V)
20	3.2
25	3.1
30	3.0
...	...

拟合回归直线后为：

表示温度每升高1℃，电压下降0.02V，非常符合物理常识。图中拟合线与点的走势几乎一致，说明模型可靠。

🎯 五、回归直线的绘制

当我们计算出 β^0\hat{\beta}_0β^0 和 β^1\hat{\beta}_1β^1 后，就可以绘制出回归直线：

这条直线叫做最小二乘回归直线，它是数据中“最能代表总体趋势”的一条直线。

在图像中，这条直线应该尽量穿过所有数据点的中心区域，尽可能让每个点与直线之间的垂直距离（残差）最小。

✅ 举个例子：

假设我们有以下简单数据集：

学习时间（小时）	成绩（分）
1	55
2	60
3	65
4	70
5	75

你会发现这是一个非常理想的线性关系，每多学一小时，成绩提升5分。通过最小二乘法计算，我们会得到回归直线：

这表示：当学习时间为 xxx 小时时，预测成绩为 y^\hat{y}y^ 分。

🧠 六、个人总结与理解

这一节虽然公式推导看似枯燥，但核心思想其实很简单：

用一条最合适的直线去“拟合”散点图中的数据点，最合适的标准就是误差平方和最小。

回归分析之所以重要，是因为它不仅能“预测”，还能让我们“解释变量之间的关系”，例如：

销售额增加是否与广告费用有关？
气温升高是否导致冷饮销量提升？

未来我们还会学习多元回归、非线性回归、逻辑回归等更复杂的模型，但都基于这一节的基础。

七、回归图像的多样性：什么时候别用线性？

教材还特别展示了几种典型“错误拟合”的场景（见图9.2-7）：

数据是抛物线，却硬套直线，拟合很差；
数据完全没有趋势，强行拟合毫无意义；
离群点太多，拉偏了整个回归模型；

启示：回归分析之前，一定要画图！看清数据形态，再决定用什么模型。

八、我的学习感悟 ✍️

在学习回归分析的过程中，我最大的收获是意识到：数据从来不是冷冰冰的数字，而是某种“关系”的表达。

通过拟合直线，我们不仅可以预测结果，还可以解释现象背后的因果机制。而“残差分析”和“R²”等工具，就像医生听诊器，让我们判断模型是否健康。

特别是在实验部分，我发现图表配合分析能极大提升理解力，比如“身高-体重”“温度-电压”等例子都非常直观，甚至可以作为 AI 训练数据集的初步建模过程。

解析：

一元线性回归分析是一种常用的统计方法，用于分析两个连续变量之间的关系，其中一个变量是自变量，另一个变量是因变量。它建立在以下假设的基础上：自变量和因变量之间存在一个线性关系，即因变量可以被自变量的线性组合所解释。这个方法可以用来预测因变量的值，也可以用来研究自变量和因变量之间的关系。

一元线性回归分析的目标是找到一条直线，使得这条直线最能够代表自变量和因变量之间的关系。具体而言，回归分析的目标是求解一个线性方程y = a + bx，其中y表示因变量，x表示自变量，a和b分别表示截距和斜率，通过最小化残差平方和来确定a和b的值。残差是因变量的观察值与回归直线上的预测值之间的差异。

一元线性回归分析通常涉及下列步骤：

收集数据：收集有关自变量和因变量的数据，并确保数据满足回归分析的假设。
确定关系：绘制散点图，观察自变量和因变量之间的关系，并确定是否存在线性关系。
拟合直线：使用回归分析方法拟合一条直线，该直线最能够代表自变量和因变量之间的关系。
评估拟合：评估回归分析的拟合程度，并确定拟合是否显著。
进行预测：使用回归方程进行预测，并评估预测结果的可靠性。

我的理解：

一元线性回归分析是一种统计分析方法，它用于研究两个连续型变量之间的关系。其中一个变量被称为自变量，通常是独立变量，另一个变量被称为因变量，通常是需要解释的变量。一元线性回归模型建立了自变量与因变量之间的线性关系，并通过拟合一条直线来描述这种关系。回归分析可以用于预测、模拟和探索数据之间的关系。

在一元线性回归分析中，我们通常会首先绘制散点图，以便可视化自变量和因变量之间的关系。然后，我们会计算出相关系数来度量这种关系的强度和方向。接下来，我们会拟合一条直线，这条直线应该能够在一定程度上解释因变量的变化。最后，我们会进行统计检验来确定这条直线是否能够很好地解释数据，以及自变量对因变量的影响是否显著。

我的理解：

最小二乘估计是一种用于确定回归系数的方法。回归系数包括截距项（参数β0）和自变量的系数（参数β1），最小二乘估计的目标是找到一条直线，使得这条直线的残差平方和（即预测值与真实值之差的平方和）最小。这样的直线称为最小二乘回归线。

具体来说，最小二乘估计首先需要选择一个假设的函数形式，例如一元线性回归中假设因变量和自变量之间的关系为一条直线。然后，根据样本数据计算出回归系数β0和β1，使得残差平方和最小。这个过程可以使用数学公式计算，也可以利用计算机软件进行计算。

最小二乘估计是一种经典的回归分析方法，被广泛应用于各种领域，包括自然科学、社会科学、工程和商业等。

我的理解：

回归方程的显著性检验是用来判断一元线性回归模型中自变量是否显著影响因变量。它是基于一个假设检验的方法进行的，其中原假设为自变量的系数等于0，即自变量不对因变量产生显著影响；备择假设为自变量的系数不等于0，即自变量对因变量有显著影响。在进行显著性检验时，需要计算回归方程中的F值，然后与F分布的临界值进行比较。如果计算得到的F值大于F分布的临界值，就可以拒绝原假设，认为自变量对因变量具有显著影响；否则不能拒绝原假设，即认为自变量对因变量没有显著影响。