scikit-learn 学习笔记 - Generalized Linear Models

最新推荐文章于 2024-08-12 22:12:28 发布

freelander0418

最新推荐文章于 2024-08-12 22:12:28 发布

阅读量400

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：线性回归

本文链接：https://blog.csdn.net/ofreelander/article/details/80058143

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何使用Python的pandas和scikit-learn库进行数据预处理，并应用线性回归模型进行预测。文中详细展示了从数据读取到模型训练、评估及交叉验证的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Generalized Linear Models 官方文档
 Generalized Linear Models 中文文档

用pandas来读取数据

先把要导入的库声明了：

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

data = pd.read_csv('xxx.csv')
data.head()#读取前五行数据，如果是最后五行，用data.tail()

准备运行算法的数据

data.shape   #查看数据维度
X = data[['f1', 'f2', 'f3', 'f4']]  #样本特征
X.head()
y = data[['t']]  #样本输出
y.head()

划分训练集和测试集

　把X和y的样本组合划分成两部分，一部分是训练集，一部分是测试集，代码如下：

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

查看下训练集和测试集的维度：

print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

运行scikit-learn的线性模型

from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_train, y_train)`

模型系数结果：
print (linreg.intercept_)
print (linreg.coef_)

模型评价

#模型拟合测试集
y_pred = linreg.predict(X_test)
from sklearn import metrics
#用scikit-learn计算MSE
print ("MSE:",metrics.mean_squared_error(y_test, y_pred))
print ("RMSE:",np.sqrt(metrics.mean_squared_error(y_test, y_pred)))# 用scikit-learn计算RMSE

交叉验证

采用10折交叉验证，即cross_val_predict中的cv参数为10：

X = data[['AT', 'V', 'AP', 'RH']]
y = data[['PE']]
from sklearn.model_selection import cross_val_predict
predicted = cross_val_predict(linreg, X, y, cv=10)
# 用scikit-learn计算MSE
print ("MSE:",metrics.mean_squared_error(y, predicted))
# 用scikit-learn计算RMSE
print ("RMSE:",np.sqrt(metrics.mean_squared_error(y, predicted)))

画图观察结果

fig, ax = plt.subplots()
ax.scatter(y, predicted)
ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

点击参考链接