1.数据集的导入以及自变量和因变量的选取
作为机器学习的入门知识点和模型,网上有很多sklearn库实现线性回归的例子。不过在这里我会从最开始的模型训练到最后的模型调优,统一地进行一个练习,以便对线性回归有个更深入浅出的理解。
首先我们先导入一些相关的包:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_predict, train_test_split
from sklearn import datasets
%matplotlib inline
mpl.rcParams['font.family'] = ['sans-serif']
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus']=False
作为回归模型练习的数据集,就从经典的波士顿房价数据集来进行训练就好,这也是sklearn库中自带的小数据集。在这里,作为自变量X的就是数据集中的feature_names维度,总共有13个维度,所以这是一个多元线性回归模型;因变量y就是我们数据集中的target维度——房价。
data = datasets.load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
ta