机器学习基础17-基于波士顿房价（Boston House Price）数据集训练模型的整个过程讲解

小海聊智造

已于 2023-08-30 16:55:44 修改

阅读量2.9k

点赞数 2

分类专栏：机器学习人工智能文章标签：机器学习人工智能 sklearn cnn

于 2023-08-30 16:54:55 首次发布

本文链接：https://blog.csdn.net/hai411741962/article/details/132580367

版权

机器学习是一项经验技能，实践是掌握机器学习、提高利用机器学习
解决问题的能力的有效方法之一。那么如何通过机器学习来解决问题呢？
本节将通过一个实例来一步一步地介绍一个回归问题。
本章主要介绍以下内容：

如何端到端地完成一个回归问题的模型。
如何通过数据转换提高模型的准确度。
如何通过调参提高模型的准确度。
如何通过集成算法提高模型的准确度。

1 定义问题

在这个项目中将分析研究波士顿房价（Boston House Price）数据集，这个数据集中的每一行数据都是对波士顿周边或城镇房价的描述。数据是1978年统计收集的。数据中包含以下14个特征和506条数据（UCI机器学习仓库中的定义）。

· CRIM：城镇人均犯罪率。
· ZN：住宅用地所占比例。
· INDUS：城镇中非住宅用地所占比例。
· CHAS：CHAS虚拟变量，用于回归分析。
· NOX：环保指数。
· RM：每栋住宅的房间数。
· AGE：1940年以前建成的自住单位的比例。
· DIS：距离5个波士顿的就业中心的加权距离。
· RAD：距离高速公路的便利指数。
· TAX：每一万美元的不动产税率。
· PRTATIO：城镇中的教师学生比例。
· B：城镇中的黑人比例。
· LSTAT：地区中有多少房东属于低收入人群。
· MEDV：自住房屋房价中位数。

通过对这些特征属性的描述，我们可以发现输入的特征属性的度量单位是不统一的，也许需要对数据进行度量单位的调整。

2 导入数据

首先导入在项目中需要的类库。代码如下：

import pandas as pd
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import  KFold, cross_val_score
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

接下来导入数据集到Python中，这个数据集也可以从UCI机器学习仓库下载，在导入数据集时还设定了数据属性特征的名字。

代码如下：

#导入数据
path = 'D:\down\\BostonHousing.csv'
data = pd.read_csv(path)

3 理解数据

对导入的数据进行分析，便于构建合适的模型。首先看一下数据维度，例如数据集中有多少条记录、有多少个数据特征。

代码如下：

print('data.shape=',data.shape)

执行之后我们可以看到总共有506条记录和14个特征属性，这与UCI提供的信息一致。

data.shape= (506, 14)

再查看各个特征属性的字段类型。代码如下：

#特征属性字段类型
print(data.dtypes)

可以看到所有的特征属性都是数字，而且大部分特征属性都是浮点
数，也有一部分特征属性是整数类型的。执行结果如下：

crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
dtype: object

接下来对数据进行一次简单的查看，在这里我们查看一下最开始的30条记录。代码如下：

print(data.head(30))

执行结果如下：

       crim    zn  indus  chas    nox  ...  tax  ptratio       b  lstat  medv
0   0.00632  18.0   2.31     0  0.538  ...  296     15.3  396.90   4.98  24.0
1   0.02731   0.0   7.07     0  0.469  ...  242     17.8  396.90   9.14  21.6
2   0.02729   0.0   7.07     0  0.469  ...  242     17.8  392.83   4.03  34.7
3   0.03237   0.0   2.18     0  0.458  ...  222     18.7  394.63   2.94  33.4
4   0.06905   0.0   2.18     0  0.458  ...  222     18.7  396.90   5.33  36.2
5   0.02985   0.0   2.18     0  0.458  ...  222     18.7  394.12   5.21  28.7
6   0.08829  12.5   7.87     0  0.524  ...  311     15.2  395.60  12.43  22.9
7   0.14455  12.5   7.87     0  0.524  ...  311     15.2  396.90  19.15  27.1
8   0.21124  12.5   7.87     0  0.524  ...  311     15.2  386.63  29.93  16.5
9   0.17004  12.5   7.87     0  0.524  ...  311     15.2  386.71  17.10  18.9
10  0.22489  12.5   7.87     0  0.524  ...  311     15.2  392.52  20.45  15.0
11  0.11747  12.5   7.87     0  0.524  ...  311     15.2  396.90  13.27  18.9
12  0.09378  12.5   7.87     0  0.524  ...  311     15.2  390.50  15.71  21.7
13  0.62976   0.0   8.14     0  0.538  ...  307     21.0  396.90   8.26  20.4
14  0.63796   0.0   8.14     0  0.538  ...  307     21.0  380.02  10.26  18.2
15  0.62739   0.0   8.14     0  0.538  ...  307     21.0  395.62   8.47  19.9
16  1.05393   0.0   8.14     0  0.538  ...  307     21.0  386.85   6.58  23.1
17  0.78420   0.0   8.14     0  0.538  ...  307     21.0  386.75  14.67  17.5
18  0.80271   0.0   8.14     0  0.538  ...  307     21.0  288.99  11.69  20.2
19  0.72580   0.0   8.14     0  0.538  ..