回归分析--python应用篇(statsmodels)

实例一:用statsmodels库做一元回归分析

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

#构造变量
number=20 
x=np.linspace(0,10,number) #x值
X=sm.add_constant(x) #回归方程添加一列x0=1
bata=np.array([2,5]) #系数
e=np.random.normal(size=number) #误差
y=np.dot(X,bata)+e #观察值y

#建回归方程
#OLS(endog,exog=None,missing='none',hasconst=None) (endog:因变量,exog=自变量)
modle=sm.OLS(y,X) #最小二乘法
res=modle.fit() #拟合数据
Bata=res.params  #取系数
res.summary() #结果

#作图
Y=res.fittedvalues  #预测值
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(x, y, 'o', label='data')#原始数据
ax.plot(x, Y, 'r--.',label='test')#拟合数据
ax.legend(loc='best') #展示各点表示意思,即label
plt.show()


实例二:用statsmodels做多元回归分析

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

#构造变量
number=50
x=np.linspace(0,10,number)
X=np.column_stack((x,x**2))  #!!!
X=sm.add_constant(X)
bata=np.array([5,2,3])
e=np.random.normal(size=number)
y=np.dot(X,bata)+e

#建立方程
model=sm.OLS(y,X)
res=model.fit()
Bata=res.params
print(Bata)
res.summary()

#作图
y_=res.fittedvalues
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(x, y, 'o', label='data')
ax.plot(x, y_, 'r--.',label='OLS')
ax.legend(loc='best')
plt.show()


实例三:分类变量

在现实中,常出现分类问题,比如冰箱容量、耗能等级预测冰箱价格问题。

分类函数:sm.categorical(类别数组,drop=True)  【drop=True:去掉原类别数据,默认False,原数据会和分类变量合并】

例子:energy_level=np.array((2,1,3,2,3,1))  #由6台冰箱耗能分成3个等级

sm.categorical(energy_level)

返回:array([[2., 0., 1., 0.], [1., 1., 0., 0.], [3., 0., 0., 1.], [2., 0., 1., 0.], [3., 0., 0., 1.], [1., 1., 0., 0.]])

sm.categorical(energy_level,drop=True)

返回:array([[0., 1., 0.], [1., 0., 0.], [0., 0., 1.], [0., 1., 0.], [0., 0., 1.], [1., 0., 0.]])

如下图,categorical函数类似数据透视化,将等级化成0,1表示。

冰箱等级1等级2等级3等级
2010
1100
3001
2010
3001
1100
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

#构造函数
number=50
group=np.zeros(number,int)
group[20:40]=1
group[40:]=2
category=sm.categorical(group,drop=True) #构造分类变量
x=np.linspace(0,10,number)
X=np.column_stack((x,category))
X=sm.add_constant(X)
bata=np.array([2,3,4,5,6])
e=np.random.normal(size=number)
y=np.dot(X,bata)+e

#建立方程
model=sm.OLS(y,X).fit()
model.summary()

#作图
Y=model.fittedvalues
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(x, y, 'o', label='data')
ax.plot(x, Y, 'r--.',label='OLS')
ax.legend(loc='best')
plt.show()

 

 

 

 

  • 25
    点赞
  • 101
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值