前言
这里的数据集合我们只针对于excel,其他数据格式之后再进行总结,本片分享包括通过代码导入数据集、对数据集进行切片操作(这一步主要实现得到自变量和因变量)、对于数据集进行训练集和测试集的划分、拟合模型,验证模型。这里没有什么复杂的代码逻辑只是需要记清楚做几件事情的代码语法即可,接下来我们直接上代码。
# 一个简单的一元线性回归模型
# 导入我们需要的几个python包,这里有numpy、matplotlib、pandas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# 导入我们需要的数据集
dataset=pd.read_excel(r'绝对路径+文件')
X=dataset.iloc[:,9].tolist()
y=dataset.iloc[:,13].tolist()
# 将数据集划分为训练集与测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)
# 特征缩放,如果我们两列的数据规模相差过大需要对数据进行特征缩放
"""from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)"""
# 这里用到了机器学习中经典的Scikit-Learn包
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)
# 经过对模型的拟合,我们这里需要对测试集进行验证
y_pred = regressor.predict(X_test)
# 对训练集进行可视化
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary VS Experience (training set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()
# 对测试集进行可视化
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary VS Experience (test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()
总结
这个只是数据分析代码模板中最简单地一个开始,这里我们主要需要掌握数据分析,数据我们怎么去拿,拿到数据之后如何去划分,怎么去处理,最后是怎样去跟模型进行拟合,拟合之后如何对数据进行验证以及可视化。