线性回归模型的python实战如下:
1. 导入包和数据集
# 导入包
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model, discriminant_analysis, model_selection
# 在书中,从sklearn中导入的最后一个模块为cross_validation而不是model_selection,但cross_validaton在0.18版本中被弃用,其中内容移至model_selection中。
# 在线性回归问题中,使用的数据集是scikit-learn自带的一个糖尿病病人的数据集。
# 加载数据集的函数如下:
def load_data():
diabetes = datasets.load_diabetes() # diabete指糖尿病
return model_selection.train_test_split(diabetes.data, diabetes.target, test_size=0.25, random_state=0)
# 返回值为:一个元组,元组依次是:训练样本集、测试样本集、训练样本集对应的标签值、测试样本集对应的标签值。
# load_data()函数加载数据集并随机切分数据集为两个部分,其中test_size指定了测试集为原始数据集的大小&#