scikit-learn 学习笔记 - Generalized Linear Models

Generalized Linear Models 官方文档
Generalized Linear Models 中文文档

用pandas来读取数据

先把要导入的库声明了:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

data = pd.read_csv('xxx.csv')
data.head()#读取前五行数据,如果是最后五行,用data.tail()

准备运行算法的数据

data.shape   #查看数据维度
X = data[['f1', 'f2', 'f3', 'f4']]  #样本特征
X.head()
y = data[['t']]  #样本输出
y.head()

划分训练集和测试集

 把X和y的样本组合划分成两部分,一部分是训练集,一部分是测试集,代码如下:

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

查看下训练集和测试集的维度:

print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

运行scikit-learn的线性模型

from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_train, y_train)`

模型系数结果:
print (linreg.intercept_)
print (linreg.coef_)

模型评价

#模型拟合测试集
y_pred = linreg.predict(X_test)
from sklearn import metrics
#用scikit-learn计算MSE
print ("MSE:",metrics.mean_squared_error(y_test, y_pred))
print ("RMSE:",np.sqrt(metrics.mean_squared_error(y_test, y_pred)))# 用scikit-learn计算RMSE

交叉验证

采用10折交叉验证,即cross_val_predict中的cv参数为10:

X = data[['AT', 'V', 'AP', 'RH']]
y = data[['PE']]
from sklearn.model_selection import cross_val_predict
predicted = cross_val_predict(linreg, X, y, cv=10)
# 用scikit-learn计算MSE
print ("MSE:",metrics.mean_squared_error(y, predicted))
# 用scikit-learn计算RMSE
print ("RMSE:",np.sqrt(metrics.mean_squared_error(y, predicted)))

画图观察结果

fig, ax = plt.subplots()
ax.scatter(y, predicted)
ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

点击参考链接

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值