一元线性回归理论知识介绍与实战（Python）

最新推荐文章于 2024-06-16 19:46:23 发布

浩然然然

最新推荐文章于 2024-06-16 19:46:23 发布

阅读量1.6k

点赞数 1

分类专栏：统计文章标签： python 数学建模概率论统计学统计模型

本文链接：https://blog.csdn.net/lhrfighting/article/details/115600876

版权

统计专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章目录

模型

回归模型

一元线性回归的模型为 $y=\beta_0+\beta_1x+\varepsilon$ ， $\beta_0$ ， $\beta_1$ 为回归系数， $\varepsilon$ 是随机误差项，总是假设：

$y$ 与 $x$ 有线性关系
重复抽样中， $x$ 取值固定，即 $x$ 是非随机的
$\varepsilon$ 为随机变量，且独立
$\varepsilon\sim N(0,\sigma^2)$ ， $\sigma$ 为定值

若对 $y$ 和 $x$ 分别进行 $n$ 次独立观测，得到以下 $n$ 对观测值：
$y_i , x_i)，i = 1,2,...,n$
这 $n$ 对观测值之间的关系符合模型：
$y_i = β_0 + β_1x + ε_i ，i = 1,2,...,n$
这里， $x_i$ 是自变量在第 $i$ 次观测时的取值，它是一个非随机变量，并且没有测量误差。对应于 $x_i$ ， $y_i$ 是一个随机变量，它的随机性是由 $ε_i$ 造成的。 $ε_i \sim N(0,σ^2 )$ ，对于不同的观测，当 $i \neq = j$ 时， $ε_i$ 与 $ε_j$ 是相互独立的。

回归方程

根据回归模型中的假设，我们知道 $E(\varepsilon)=0$ ，那么 $E(y)=\beta_0+\beta_1x,D(y)=\sigma^2$ ，即随机变量 $y\sim N(\beta_0+ \beta_1 x,\sigma^2)$ 。
其中 $E (y)$ 称为总体回归方程。

估计的回归方程

估计样本的回归方程，总体回归参数 $\beta_0,\beta_1$ 是未知的，因此我们需要用样本去估计它们，其估计的回归方程为：
$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$

最小二乘估计

记 $y_i=\hat{y_i}+e_i$ ，其中 $e_i$ 为第 $i$ 个观测值的残差。用最小二乘法估计 $\beta_0,\beta_1$ 的值，即取 $\beta_0,\beta_1$ 的一组估计值 $\hat{\beta_0},\hat{\beta_1}$ ，使 $y_i$ 与 $\hat{y_i}$ 的离差平方和达到最小，即 $\sum_{i=1}^{n} e_i^2$ 最小。
最小二乘法示意图

若记
$Q(\beta_0,\beta_1)=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2$
则
$Q(\hat{\beta_0},\hat{\beta_1})=\mathop{min}\limits_{\beta_0,\beta_1}{Q(\beta_0,\beta_1)}=\sum_{i=1}^{n}(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2$
显然 $Q(\beta_0,\beta_1)\ge0$ ，且关于 $\beta_0,\beta_1$ 可微，则由多元函数存在极值的必要条件得
$\begin{cases} \frac{\partial Q}{\partial \beta_0} =-2\sum_{i=1}^{n}(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 \\ \\ \frac{\partial Q}{\partial \beta_1} =-2\sum_{i=1}^{n}x_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0\\ \end{cases}$
求解可以得到
$\begin{cases} \hat{\beta_1}=\frac{n\sum_{i=1}^{n}x_iy_i -\sum_{i=1}^{n} x_i\sum_{i=1}^{n} y_i}{n\sum_{i=1}^{n}x_i^2 -(\sum_{i=1}^{n}x_i )^2} \\ \\ \hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x} \end{cases}$
由 $\hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}$ 可以看出，回归直线过样本中心点 $(\overline{x},\overline{y})$ 。
由偏导方程组可以知道
$\begin{cases} \sum e_i=0\\ \\ \sum x_ie_i=0\\ \end{cases}$
这是残差的重要性质，后面会用到。

将 $\hat{\beta_1}$ 变换
$\begin{aligned} \hat{\beta_1} &=\frac{n \sum x_i y_i - \sum x_i\sum y_i}{n\sum x_i^2 -(\sum x_i )^2}\\ &=\frac{\sum x_iy_i-n\overline{x}\overline{y} }{\sum x_i^2-n\overline{x}^2 } \\ &=\frac{\sum (x_i-\overline{x} )(y_i-\overline{y} )}{\sum (x_i-\overline{x} )^2} \\ \end{aligned}$

$\hat{\beta_0},\hat{\beta_1}$ 的性质

点估计量 $\hat{\beta_1}$ 是总体参数 $\beta_1$ 的无偏估计
由于
$\begin{aligned} \hat{\beta_1}=\frac{\sum (x_i-\overline{x} )(y_i-\overline{y} )}{\sum (x_i-\overline{x} )^2} =\frac{\sum(x_i-\overline{x})y_i-\overline{y}\sum(x_i-\overline{x})}{\sum(x_i-\overline{x} )^2}\\ \end{aligned}$
容易证明 $\sum(x_i-\overline{x})=0$
于是
$\hat{\beta_1}=\sum \frac{x_i-\overline{x}}{\sum(x_i-\overline{x})^2}y_i$
可以看到 $\hat{\beta_1}$ 是 $y_i$ 的线性组合，而 $y_i$ 相互独立且服从正态分布，所以 $\hat{\beta_1}$ 也服从正态分布。

记
$k_i=\frac{x_i-\overline{x}}{\sum(x_i-\overline{x})^2}$
则
$E(\hat{\beta_1})=E(\sum k_iy_i)=\sum k_iE(y_i)=\beta_0\sum k_i+\beta_1\sum k_ix_i$
不难看出 $\sum k_i=0,\sum k_ix_i=1$
于是有 $E(\hat{\beta_1})=\beta_1$

同样的
$Var(\hat{\beta_1})=Var(\sum k_iy_i))=\sum k_i^2Var(y_i)=\sum k_i^2\sigma^2=\sigma^2\sum k_i^2$
由于
$\begin{aligned} \sum_{i=1}^{n} k_i^2 =&\sum_{i=1}^{n} [\frac{x_i-\overline{x}}{\sum_{i=1}^{n}(x_i-\overline{x})^2}]^2\\ =&\frac{1}{[\sum_{i=1}^{n} (x_i-\overline{x})^2]^2} \sum_{i=1}^{n} (x_i-\overline{x})^2\\ =&\frac{1}{\sum_{i=1}^{n} (x_i-\overline{x})^2} \end{aligned}$
于是有 $Var(\hat{\beta_1})=\frac{\sigma^2}{\sum (x_i-\overline{x})^2}$

即
$\hat{\beta_1} \sim N (\beta_1,\frac{\sigma^2}{\sum (x_i-\overline{x})^2})$

同理，对点估计量 $\hat{\beta_0}$ 也是一样，最后有
$\hat{\beta_0} \sim N(\beta_0,\sigma^2[\frac{1}{n}+\frac{\overline{x}^2}{\sum (x_i-\overline{x})^2}])$

拟合优度检验

判定系数

对应于不同的 $x_i$ 值，观测值 $y_i$ 的取值是不同的。建立一元线性回归模型的目的，
就是以 $x$ 的线性函数 $(\hat{\beta_0}+\hat{\beta_1}x)$ 来解释 y 的变异。那么，回归模型 $\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$
究竟能以多大的精度来解释 y 的变异呢？又有多大部分是无法用这个回归方程来解释呢？
如下图所示，每个观测点的离差可以分解为
$y-\overline{y}=(y-\hat{y})+(\hat{y}-\overline{y})$
变差分解图

并且
$\begin{aligned} & \sum_{i=1}^{n}(y_i-\overline{y})^2\\ =&\sum_{i=1}^{n} [(y_i-\hat{y_i})+(\hat{y_i}-\overline{y})]^2\\ =& \sum_{i=1}^{n} [e_i+(\hat{y_i}-\overline{y})]^2\\ =& \sum_{i=1}^{n} e_i^2+2\sum_{i=1}^{n} e_i(\hat{y_i}-\overline{y})+\sum_{i=1}^{n}(\hat{y}-\overline{y})^2\\ \end{aligned}$
由于
$\begin{aligned} \sum_{i=1}^{n} e_i(\hat{y_i}-\overline{y}) =\sum_{i=1}^{n}(e_i\hat{\beta_0}+e_i\hat{\beta_1}x_i)-\overline{y}\sum_{i=1}^{n} e_i =0 \end{aligned}$
因此，得到正交分解式
$\sum_{i=1}^{n}(y_i-\overline{y})^2 =\sum_{i=1}^{n} e_i^2+\sum_{i=1}^{n}(\hat{y}-\overline{y})^2 =\sum_{i=1}^{n} (y-\hat{y})^2+\sum_{i=1}^{n}(\hat{y}-\overline{y})^2$
记
$SST=\sum (y_i-\overline{y})^2$ ，这是原始数据 $y_i$ 的总变异平方和，其自由度为 $df_T = n −1$
$SSR=\sum (\hat{y_i}-\overline{y})^2$ ，这是用拟合直线 $\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i$ 可解释的变异平方和，其自由度为 $df_R= 1$
$SSE=\sum (y_i-\hat{y_i})^2$ ，这是残差平方和，其的自由度为 $df_E = n − 2$

并且有
$SST=SSR+SSE\\\\df_T=df_R+df_E$

注意到，对于一个确定的样本， $S S T$ 是一个定值。所以，可解释变异 $S S R$ 越大，则必然有残差 $S S E$ 越小。这个分解式可同时从两个方面说明拟合方程的优良程度。

判定系数是指可解释的变异占总变异的百分比，用 $R^2$ 表示，有
$R^2=\frac{SSR}{SST}=(1-\frac{SSE}{SST})$

$R^2$ 有以下性质：

$R^2 \in [0,1]$ ；
当 $R^2 = 1$ 时，有 $S S R = S S T$ ，也就是说，此时原数据的总变异完全可以由拟合值的变异来解释，并且残差为零，即拟合点与原数据完全吻合；
当 $R^2 = 0$ 时，回归方程完全不能解释原数据的总变异， $y$ 的变异完全由与 $x$ 无关的因素引起，这时 $S S E = S S T$ ；

在一元线性回归中，相关系数 $r$ 等于判定系数的平方根，即 $r = R$ 。

估计标准误差

前面我们记残差
$e_i=y_i-\hat{y_i}，i=1,2...,n$
并且我们知道
$\sum_{i=1}^{n} e_i=0\\ \sum_{i=1}^{n} x_ie_i=0$
而残差的样本均值为
$\overline{e}=\frac{1}{n}\sum_{i=1}^{n}e_i=0$
残差的样本方差为
$\begin{aligned} MSE &=\frac{1}{n-2}\sum_{i=1}^{n}(e_i-\overline{e})^2\\ &=\frac{1}{n-2}\sum_{i=1}^{n}e_i^2\\ &=\frac{1}{n-2}\sum_{i=1}^{n}(y_i-\hat{y_i})^2 \end{aligned}$

可以证明，在对 $\sum e_i^2$ 除以其自由度 $(n - 2)$ 后得到的 $M S E$ ，是总体回归模型中 $\sigma^2=Var(\varepsilon_i)$ 的无偏估计量。

我们记
$S_e=\sqrt{MSE}=\sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(y_i-\hat{y_i})^2}$

一个好的拟合方程，其残差总和应越小越好。残差越小，拟合值与观测值越接近，各观测点在拟合直线周围聚集的紧密程度越高，也就是说，拟合方程 $\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$ 解释 $y$ 的能力越强。
另外，当 $S_e$ 越小时，还说明残差 $e_i$ 的变异程度越小。由于残差的样本均值为零，所以说，其离散范围越小，拟合的模型就越为精确。

显著性检验

在拟合回归之前，我们假设 $x$ 与 $y$ 存在线性关系，即 $y_i=\beta_0+\beta_1x_i+\varepsilon_i$ ，并假定 $\varepsilon_i \sim N(0,\sigma^2)$ ，这些假设是否成立，需要通过检验来证实。

线性关系的检验

为了检验两个变量之间线性关系是否显著，我们需要构造检验的统计量，假设的统计量为：
$F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}$

其中 $MSR=SSR/df_R$ ， $MSE=SSE/df_E$

如果原假设成立（ $H_0:\beta_1=0$ ），由于 $S S T = S S R + S S E$ ，
则 $\frac{SSR}{\sigma^2}$ 与 $\frac{SSE}{\sigma^2}$ 是独立的随机变量，
并且
$\begin{aligned} &\frac{SSR}{\sigma^2} \sim \chi^2(1), &\frac{SSE}{\sigma^2} \sim \chi^2(n-2) \end{aligned}$
此时有
$F=\frac{MSR}{MSE} \sim F(1,n-2)$
下面进行统计的检验：
第一步：提出假设。
$H_0：\beta_1=0，H_1：\beta_1\ne0$
第二步：检验统计量。
$F=\frac{MSR}{MSE}$
第三步：作出决策。
给定显著性水平 $\alpha$ ，查表，
若 $F>F_\alpha$ ，拒绝 $H_0$ ，表明 $x$ 和 $y$ 的线性关系是显著的，
若 $F<F_\alpha$ ，接受 $H_0$ ，没有证据表明 $x$ 和 $y$ 的线性关系是显著的。

回归系数的检验

回归系数的显著性检验要检验自变量对因变量的影响是否显著，对于 $y=\beta_0+\beta_1x+\varepsilon$ 来说，如果回归系数 $\beta_1=0$ ，说明 $y$ 不依赖于 $x$ ，也就是说两个变量之间没有线性关系。
前面我们知道
$\hat{\beta_1} \sim N (\beta_1,\frac{\sigma^2}{\sum (x_i-\overline{x})^2})\\ \hat{\beta_0} \sim N(\beta_0,\sigma^2[\frac{1}{n}+\frac{\overline{x}^2} {\sum (x_i-\overline{x})^2}])$

将 $\hat{\beta_1}$ 标准化
$\frac{\hat{\beta_1}-\beta_1}{\sigma/\sqrt{\sum(x_i-\overline{x})^2}} \sim N(0,1)$
由于 $\sigma$ 未知，因此用 $S_e$ 替换，则有
$\frac{\hat{\beta_1}-\beta_1}{S_e/\sqrt{\sum(x_i-\overline{x})^2}} \sim t(n-2)$
下面进行检验：
第一步：提出假设。
$H_0：\beta_1=0，H_1：\beta_1\ne0$
第二步：检验统计量。
$t=\frac{\hat{\beta_1}-\beta_1}{S_e/\sqrt{\sum(x_i-\overline{x})^2}}$
第三步：作出决策。
给定显著性水平 $\alpha$ ，并根据自由度 $d f = n - 2$ 查表，
若 $\mid t \mid > t_{\alpha/2}$ ，拒绝 $H_0$ ，表明 $x$ 对 $y$ 的影响是显著的，
若 $\mid t \mid < t_{\alpha/2}$ ，接受 $H_0$ ，没有证据表明 $x$ 对 $y$ 的影响是显著的。

回归分析结果评价

所估计的回归系数的符号是否与理论或事先预期相一致；
如果理论上认为 $x$ 与 $y$ 之间的关系不仅是正的，而且是统计上显著的，那么所建立的回归方程也应该如此；
回归模型在多大程度上解释了因变量 $y$ 取值的差异？可以用判定系数 $R^2$ 来分析；
考察关于误差项 $\varepsilon$ 的正态性假定是否成立，即 $\varepsilon \sim N(0,\sigma^2)$ 。

预测

点估计

利用估计的回归方程，对于特定的 $x$ ，求出 $y$ 的估计值就是点估计。
点估计分为：

平均值的点估计
个别值的点估计

而对于估计的回归方程
$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$
可以得到
$\begin{aligned} E(\hat{y}) &=E(\hat{\beta_0})+E(\hat{\beta_1}x)\\ &=\beta_0+\beta_1x\\ &=E(y) \end{aligned}$
可以看到 $y$ 的平均值点估计 $E(\hat{y})=E(y$ )
简单来说，就是平均值的点估计和个别值的点估计均可以带入估计的回归方程即可。

区间估计

由于点估计不能给出估计的精度，点估计值与实际值之间是有误差的，因此需要进行区间估计。
区间估计分为：

置信区间估计
预测区间估计

置信区间估计：给定一个 $x_0$ ，求出 $y$ 的平均值的区间估计

可以证明
$\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0 \sim N(\beta_0+\beta_1x_0, \sigma^2[\frac{1}{n} +\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}])$

将 $\hat{y_0}$ 标准化
$\frac{\hat{y_0}-(\beta_0+\beta_1x_0)}{\sigma \sqrt{\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}}} \sim N(0,1)$

由于 $\sigma$ 未知，因此用 $S_e$ 替换
$\frac{\hat{y_0}- E(y_0) }{S_e \sqrt{\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}}} \sim t(n-2)$

在给定显著性水平 $\alpha$ ，因此有
$-t_{\alpha/2}< \frac{\hat{y_0}- E(y_0) }{S_e \sqrt{\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}}} <t_{\alpha/2} )=1-\alpha$

求解得到 $E(y_0)$ 的置信区间
$E(y_0) \in (\hat{y_0}-t_{\alpha/2}S_e \sqrt{\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}}, \hat{y_0}+t_{\alpha/2}S_e \sqrt{\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}})$

预测区间估计：给定一个 $x_0$ ，求出 $y$ 的个别值的区间估计

对于 $\hat{y_0}$ 和 $y_0$ ，有
$\begin{aligned} &\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0 \sim N(\beta_0+\beta_1x_0, \sigma^2[\frac{1}{n} +\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}])\\ &y_0=\beta_0+\beta_1x_0+\varepsilon \sim N(\beta_0+\beta_1x_0,\sigma^2) \end{aligned}$

将两个正态分布相减，得到
$y_0-\hat{y_0} \sim N(0, \sigma^2[1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum(x_i-\overline{x})^2}])$

将其标准化
$\frac{y_0-\hat{y_0}}{\sigma\sqrt{1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum(x_i-\overline{x})^2}}} \sim N(0,1)$

由于 $\sigma$ 未知，因此用 $S_e$ 替换
$\frac{y_0-\hat{y_0}}{S_e \sqrt{1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum(x_i-\overline{x})^2}}} \sim t(n-2)$

在给定显著性水平 $\alpha$ ，因此有
$-t_{\alpha/2}< \frac{y_0-\hat{y_0}}{S_e \sqrt{1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum(x_i-\overline{x})^2}}} <t_{\alpha/2} )=1-\alpha$

求解得到 $y_0$ 的置信区间
$y_0 \in (\hat{y_0}-t_{\alpha/2}S_e \sqrt{1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}}, \hat{y_0}+t_{\alpha/2}S_e \sqrt{1+\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum (x_i-\overline{x})^2}})$

置信区间和预测区间示意图

残差分析

在回归模型中，假定 $\varepsilon \sim N(0,\sigma^2)$ ，如果假定不成立，那么，前面所做的事情就不能用统计的知识来解释，因此，确定 $\varepsilon$ 的假定是否成立就是进行残差分析。

第 $i$ 个值的预测值为
$\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i$

第 $i$ 个值的观测值为
$y_i=\beta_0+\beta_1x_i+\varepsilon_i$

误差项 $\varepsilon_i=y_i-\beta_0-\beta_1x_i$

残差项 $e_i=y_i-\hat{\beta_0}-\hat{\beta_1}x_i$

不难发现，对 $\varepsilon_i$ 的估计就是 $e_i$ 。

不同形态的残差图

对于图 $(a)$ ，如果回归模型满足基本的假定，那么残差将在 $0$ 的附近波动。
对于图 $(b)$ ，可能 $Var(\varepsilon_i)$ 随着 $x$ 的变化而变化，不是定值 $\sigma^2$ 。
对于图 $(c)$ ， $x$ 和 $y$ 是可能是非线性关系，对应的方程为曲线方程。

对 $\varepsilon$ 的正态性假定的检验，也可以通过标准化残差的分析来完成。
为了便于观察和控制残差 $e_i$ 的大小，我们对 $e_i$ 进行标准化，得到 $\frac{e_i}{\sigma}$ 服从 $N (0, 1)$ ，由于 $\sigma$ 未知，因此用 $S_e$ 替换，得到
$z_{e_i}=\frac{e_i}{S_e}$

如果误差项 $\varepsilon$ 服从正态分布，其标准化残差也应该服从正态分布，在标准化残差图中，大约有 $95$ %的标准化残差在 $-2\sim2$ 之间，如果不是，则 $\varepsilon$ 的假定错误。

那么，一元回归分析的理论部分就介绍完了，下次咱们再讲讲多元回归分析的相关理论，好好学，你会发现都不是很难理解。

实战

该数据文件有三个自变量影响因变量 $y$ ，根据第一个自变量和因变量进行一元线性回归。
数据集的离散图如下：
在这里插入图片描述

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# 导入模块
from sklearn import model_selection

data = pd.read_excel(r'Predict to Profit.xlsx')
examDf = pd.DataFrame(data)
# print(examDf.head())

# 绘制散点图,examDf.jt为X轴，examDf.hk为Y轴
plt.scatter(examDf.RD_Spend, examDf.Profit, color='darkgreen', label="Exam Data")

# 添加图的标签（x轴，y轴）
plt.xlabel("$RD\_Spend$")  # 设置X轴标签
plt.ylabel("$Profit$")  # 设置Y轴标签
# plt.show()  # 显示图像

相关系数

rDf = examDf.corr()  # 查看数据间的相关系数
print(rDf)

在这里插入图片描述

看到 $RD\\_Spend$ 与 $P r o f i t$ 的相关系数为 $0.978437$ ，接近 $1$ ，因此可以进行回归拟合。

用80%的数据进行训练，剩下20%进行测试。
在这里插入图片描述

# 拆分训练集和测试集（train_test_split是存在与sklearn中的函数）
X_train, X_test, Y_train, Y_test = model_selection.train_test_split(examDf.RD_Spend, examDf.Profit, train_size=0.8)
# train为训练数据,test为测试数据,examDf为源数据,train_size 规定了训练数据的占比

print("自变量---源数据:", examDf.RD_Spend.shape, "；  训练集:", X_train.shape, "；  测试集:", X_test.shape)
print("因变量---源数据:", examDf.Profit.shape, "；  训练集:", Y_train.shape, "；  测试集:", Y_test.shape)

# 散点图
plt.scatter(X_train, Y_train, color="darkgreen", label="train data")  # 训练集为深绿色点
plt.scatter(X_test, Y_test, color="red", label="test data")  # 测试集为红色点

# 添加标签
plt.legend(loc=2)  # 图标位于左上角，即第2象限，类似的，1为右上角，3为左下角，4为右下角
plt.xlabel("$RD\_Spend$")  # 添加 X 轴名称
plt.ylabel("$Profit$")  # 添加 Y 轴名称
plt.show()  # 显示散点图

拟合直线

在这里插入图片描述

# 调用线性规划包
model = LinearRegression()

X_train = X_train.values.reshape(-1,1)
X_test = X_test.values.reshape(-1,1)

# 线性回归训练
model.fit(X_train, Y_train)  # 调用线性回归包

a = model.intercept_  # 截距
b = model.coef_  # 回归系数

# 训练数据的预测值
y_train_pred = model.predict(X_train)
# 绘制最佳拟合线：标签用的是训练数据的预测值y_train_pred
plt.plot(X_train, y_train_pred, color='blue', linewidth=2, label="best line")

# 测试数据散点图
plt.scatter(X_train, Y_train, color='darkgreen', label="train data")
plt.scatter(X_test, Y_test, color='red', label="test data")

# 添加图标标签
plt.legend(loc=2)  # 图标位于左上角，即第2象限，类似的，1为右上角，3为左下角，4为右下角
plt.xlabel("$RD\_Spend$")  # 添加 X 轴名称
plt.ylabel("$Profit$")  # 添加 Y 轴名称
plt.show()  # 显示图像

print("拟合参数:截距", a, ",回归系数：", b)
print("最佳拟合线: Y = ", round(a, 2), "+", round(b[0], 2), "* X")  # 显示线性方程，并限制参数的小数位为两位