利用python实现多元线性回归


前言

本文介绍了如何用python进行回归分析

一、简单线性回归

直线回归分析是研究两变量(自变量和因变量)之间的依存关系及其关系的具体方程的形式。分析中所形成的这种关系式称为回归模型,其中以一条直线方程表明的两个变量的依存关系的模型叫一元线性回归模型。

二、多元线性回归

一元线性回归模型研究的是一个因变量与一个自变量之间呈直线趋势的数量关系。在实际问题中,常会遇到一个自变量与多个因变量数量关系的问题,这就需要我们建立多元线性回归模型。

三、对波士顿房价数据集进行多元线性回归分析

1、导入库

代码如下:

import numpy as np
import pandas as pd
from sklearn.datasets import load_boston

2.读入数据

代码如下:

# 读取网络数据
boston = load_boston()
# 数据包含14个字段,boston.data是前13个字段数据,boston.target是第13个字段'medv'的数据
col = ['crim','zn','indus','chas','nox','rm','age','dis','rad','tax','ptratio','b','lstat']
bostondf = pd.DataFrame(boston.data,columns=col)
bostondf['medv']=boston.target
bostondf.head()


 3、建立回归模型

#多元回归分析
import statsmodels.formula.api as smf
mod = smf.ols(formula='medv~crim+zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+b+lstat',data=bostondf)
res = mod.fit()
print(res.summary())

 从回归结果可以看出回归方程的可决系数是0.741,调整可决系数是0.734,F检验的P值远小于0.05,可以认为该回归方程的线性关系是显著的。对方程的每个自变量进行t检验,发现Indus和age两个自变量P值大于0.05,即这两个变量没有通过检验,他们与因变量的相关性较弱。

4、剔除剔除相关性较低的两个变量再进行回归分析

mod2 = smf.ols(formula='medv~crim+zn+chas+nox+rm+dis+rad+tax+ptratio+b+lstat',data=bostondf)
res2 = mod2.fit()
print(res2.summary())

可以看出剔除上述两个自变量之后所有变量都通过了检验 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值