数据分析学习笔记6

预测模型

1、线性回归
2、多项式回归
3、多元线性回归
# 线性回归
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# 生成数据
data1=np.random.normal(3,1,1000)
data2=100-(data1+np.random.normal(0,0.5,1000))*3
plt.scatter(data1,data2,edgecolor='black')
plt.title('data1-data2')

# 用最小二乘法进行拟合
from scipy import stats
fit = stats.linregress(data1,data2)
fit.rvalue**2  # 查看r方

# 把拟合线可视化
def pridict(x):
    return fit.slope*x+fit.intercept
fitline=pridict(data1)
plt.scatter(data1,data2,edgecolor='black')
plt.plot(data1,fitline,color='red')


# 多项式回归,非直线
np.random.seed(2)
data1=np.random.normal(3,1,1000)
data2=np.random.normal(50,10,1000)/data1
plt.scatter(data1,data2,edgecolor='black')

# 拟合模型
x=np.array(data1)
y=np.array(data2)
p4=np.poly1d(np.polyfit(x,y,4)) # 用4阶多项式拟合

# 将拟合结果可视化
xp=np.linspace(0,7,100)
plt.scatter(x,y,edgecolor='black')
plt.plot(xp,p4(xp),c='g')

# 计算多项式回归的r方
from sklearn.metrics import r2_score
r2 = r2_score(y,p4(x))
print(r2)

# 尝试更改阶数看看有何不同
x=np.array(data1)
y=np.array(data2)
p4=np.poly1d(np.polyfit(x,y,8))  # 改为8阶
xp=np.linspace(0,7,100)
plt.scatter(x,y,edgecolor='black')
plt.plot(xp,p4(xp),c='g')
from sklearn.metrics import r2_score
r2 = r2_score(y,p4(x))
print(r2)


# 多元线性回归--预测汽车价格
import pandas as pd
data=pd.read_excel(r'http://cdn.sundog-soft.com/Udemy/DataScience/cars.xls') # 数据读取可能比较慢,需要好点的网速
data.head()
import statsmodels.api as sm
# 查看数据大小与是否存在缺失值
data.shape
data.isnull().sum()
data['Model_ord']=pd.Categorical(data.Model).codes # 将文本数据转换为数值型
x=data[['Mileage','Model_ord','Doors']]  # 选择我们需要参与建模的变量
y=data[['Price']]
x1=sm.add_constant(x)
fit=sm.OLS(y,x1).fit()  # 模型拟合
fit.summary()  # 查看模型情况


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灯下夜无眠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值