本篇中将分4步介绍一个简单的决策树预测模型的构建过程,让你对建模过程有初步了解。
1. 选择数据集
你的数据集中变量太多了,让人摸不着头脑,即便是打印出来也看不清楚。怎样才能把这些庞大的数据集简化为能看得懂的东西呢?
在这篇中我们先依据直觉选择几个变量。稍后的篇章中将介绍如何利用统计类技巧优化变量。
为了挑选一些特征变量,我们先要看一下数据集中有哪些字段。通过DataFrame的columns属性来查看即可,代码如下所示:
import pandas as pd
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns
返回的结果为:
Melbourne数据集中有一些缺失值,即有一些房子的特征值没有被记录。在后面的章节中将介绍如何处理缺失值,此处我们采取最简单的操作,即剔除数据中的缺失值。代码如下所示:
melbourne_data = melbourne_data.dropna(axis=0)
需要注意的是参数:axis=0表示的是删除含有缺失值的行记录。
选择数据子集的方法有多种,通常使用的是以下两种操作:
- 点操作,可以用来选择目标变量<