今天给大家讲解一个实战案例:如何根据现有数据预测糖尿病。在这个案例开始之前,希望大家回忆一下大学里讲过的线性回归的知识,这是数据挖掘里非常重要的一部分知识。当然,鉴于大家都学过,本篇就不再赘述。
一. 数据集介绍
diabetes dataset数据集
这是一个糖尿病的数据集,主要包括442行数据,10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标。
输出如下所示:
二、LinearRegression使用方法
LinearRegression模型在Sklearn.linear_model下,它主要是通过fit(x,y)的方法来训练模型,其中x为数据的属性,y为所属类型。
sklearn中引用回归模型的代码如下:
输出的函数原型如下所示:
fit(x, y): 训练。分析模型参数,填充数据集。其中x为特征,y位标记或类属性。
predict(): 预测。它通过fit()算出的模型参数构成的模型,对解释变量进行预测其类属性。预测方法将返回预测值y_pred。
引用搬砖小工053"大神的例子:
运行结果如下所示,首先输出数据集,同时调用sklea