Python回归分析五部曲（二）—多重线性回归

最新推荐文章于 2024-10-28 17:50:19 发布

朱元禄

最新推荐文章于 2024-10-28 17:50:19 发布

阅读量5.2k

点赞数 6

分类专栏： python 数据挖掘文章标签： python

本文链接：https://blog.csdn.net/jacky_zhuyuanlu/article/details/78967647

版权

python 同时被 2 个专栏收录

47 篇文章 5 订阅

订阅专栏

数据挖掘

10 篇文章 4 订阅

订阅专栏

基础铺垫

多重线性回归（Multiple Linear Regression）
- 研究一个因变量与多个自变量间线性关系的方法
- 在实际工作中，因变量的变化往往受几个重要因素的影响，此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的变化，这就是多重线性回归;

多重线性回归模型

1.模型

y = α ＋ β 1 x 1 + β 2 x 2 + . . . + β n x n + e

$y = α ＋ β_1 x_1 + β_2 x_2 + ... + β_n x_n + e$

数 据 分 析 部 落 公 众 号 ： s h u j u d a t a

$数据分析部落公众号：shujudata$

方 程 式 中 ：

$方程式中：$

y - 因 变 量

$y - 因变量$

x n - 第 n 个 自 变 量

$x_n - 第n个自变量$

α - 常 数 项 （ 回 归 直 线 在 y 轴 上 的 截 距 ）

$α - 常数项（回归直线在y轴上的截距）$

β n - 第 n 个 偏 回 归 系 数

$β_n - 第n个偏回归系数$

e - 随 机 误 差

$e - 随机误差$

2.模型关键词解析

偏回归系数
- 多重线性模型中包含多个自变量，它们同时对因变量y发生作用，如果要考察一个自变量对因变量y的影响，就必须假设其他自变量保持不变；因此，多重线性模型中的回归系数称为偏回归系数，偏回归系数β_1是指在其他自变量保持不变的情况下，自变量x_1每变动一个单位，引起的因变量y的平均变化；β_2到β_n依次类推；

回顾－回归分析步骤

根据预测目标，确定自变量和因变量
绘制散点图，确定回归模型类型
估计模型参数，建立回归模型
对回归模型进行检验
利用回归模型进行预测

案例实操-金融场景

下面，jacky通过一个金融场景的案例，开始我们的分享：某金融公司打算新开一类金融产品，现有9个金融产品的数据，包括用户购买金融产品的综合年化利率，以及公司收取用户的佣金（手续费）；如下表所示，产品利率为11％，佣金为50，我们需要预测这款金融产品的销售额

产品编号	百分比利率	抽取用户佣金	金融产品销售额
1	9	75	500
2	7	30	370
3	7	20	375
4	5	30	270
5	6	0	360
6	7	21	379
7	8	50	440
8	6	20	300
9	9	60	510
10	11	50	？

import pandas
data = pandas.read_csv(
    'file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK'
)

第一步确定变量

根据预测目标，确定自变量和因变量
- 因变量：销售额
- 自变量：利率、佣金

第二步确定类型

绘制散点图，确定回归模型类型
- 从散点图和相关系数结果表可以看出，产品利率和销售额是强正相关；佣金与销售额是强负相关；因此，我们可以使用多重线性模型来解决这个问题；

我们对自变量和因变量绘制散点图，因为需要绘制多个变量两两之间的散点图，在这里介绍一个更先进的绘图方法scatter_matrix：我们把自变量和因变量从data中选取出来，然后设置好对应的参数。第一个是图片的大小，如果变量太多，我们就要把图片的尺寸设置的足够大才能够展示出来；第二个参数diagonal是变量与变量本身的绘图方式，我们选择kde,是绘制直方图，这个参数是什么意思，我们执行代码就知道了，代码如下：

import matplotlib
from pandas.tools.plotting import scatter_matrix
font = {
    'family':'SimHei'
}
matplotlib.rc('font',**font)

scatter_matrix(
    data[["百分比利率","抽取用户佣金","金融产品销售额"],
    figsize =(10,10),diagonal = 'kid'
)

data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()
x = data[["百分比利率","抽取用户佣金"]]
y = data[["金融产品销售额"]]

第三步建立模型

估计模型参数，建立回归模型
- 多重线性回归模型参数的估计方法与简单线性回归模型参数的估计方法是相同的：都是采用最小二乘法进行估计（对最小二乘法更详细的解析，请参见Python回归分析五步曲（一）—简单线性回归）

#建模
from sklearn.linear_model import LinearRegression
lrModel = LinearRegression()

#训练模型
lrModel.fit(x,y)

第四步模型检验

对回归模型进行检验
$判定系数＝相关系数 R 2 = E S S T S S = 1 - R S S T S S$ $判定系数＝相关系数 R^2 = \dfrac{ESS}{TSS} = 1- \dfrac{RSS}{TSS}$

调 整 判 定 系 数 ＝ 相 关 系 数 R ¯ 2 = 1 - R S S / ( n - k - 1 ) T S S / ( n - 1 )

$调整判定系数＝相关系数 \bar R^2 = 1- \dfrac{RSS/(n - k -1)}{TSS/(n-1)}$

其 中 ， 数 据 分 析 部 落 公 众 号 (s h u j u d a t a)

$其中，数据分析部落公众号 (shujudata)$

T S S = \sum (Y i - Y ¯) 2 总 离 差 平 方 和

$TSS = \sum(Y_i - \bar Y)^2 总离差平方和$

E S S = \sum (Y i - Y ¯) 2 回 归 差 平 方 和

$ESS = \sum(Y_i - \bar Y)^2 回归差平方和$

R S S = \sum (Y i - Y ¯) 2 残 差 平 方 和

$RSS = \sum(Y_i - \bar Y)^2 残差平方和$

n 样 本 个 数

$n 样本个数$

k 自 变 量 个 数

$k 自变量个数$

jacky解析：拟合完方程的参数之后，我们就要对回归模型进行检验，在简单线性回归的分享中，我们用判定系数来验证方程的拟合程度，而在多重线性回归中，如果在模型中增加一个自变量，模型中R平方往往也会相应增加，这就会给我们一个错觉：要使得模型拟合的好，只要增加自变量即可。因此，使用判定系数R平方来验证方程的拟合程度是不够科学的，需要自变量个数进行修正和调整，也就是调整判定系数；以上，我们只要理解原理即可，公式记不住也不要紧，知道多重线性模型需要用调整判定系数来判定方程的拟合程度，会用Python看结果就可以了。

第五步模型预测

利用回归模型进行预测
- 根据已有的自变量数据，预测需要的因变量对应的结果

#预测
lrModel.predict([11,50])

#查看参数
lrModel.coef_

#查看截距
lrModel.intercept_

总结－完整代码

#---author:朱元禄---
import pandas
data = pandas.read_csv(
    'file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK'
)

import matplotlib
from pandas.tools.plotting import scatter_matrix
font = {
    'family':'SimHei'
}
matplotlib.rc('font',**font)

scatter_matrix(
    data[["百分比利率","抽取用户佣金","金融产品销售额"],
    figsize =(10,10),diagonal = 'kid'
)

data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()
x = data[["百分比利率","抽取用户佣金"]]
y = data[["金融产品销售额"]]

#建模
from sklearn.linear_model import LinearRegression
lrModel = LinearRegression()

#训练模型
lrModel.fit(x,y)

#预测
lrModel.predict([11,50])

#查看参数
lrModel.coef_

#查看截距
lrModel.intercept_