机器学习——决策树建模及预测

本文详细介绍了如何分4步构建决策树预测模型,包括选择数据集、预测目标变量、特征变量的选择以及模型构建过程。使用scikit-learn库,通过定义、拟合、预测和评估模型来完成建模任务。
摘要由CSDN通过智能技术生成

本篇中将分4步介绍一个简单的决策树预测模型的构建过程,让你对建模过程有初步了解。

1. 选择数据集

你的数据集中变量太多了,让人摸不着头脑,即便是打印出来也看不清楚。怎样才能把这些庞大的数据集简化为能看得懂的东西呢?

在这篇中我们先依据直觉选择几个变量。稍后的篇章中将介绍如何利用统计类技巧优化变量。

为了挑选一些特征变量,我们先要看一下数据集中有哪些字段。通过DataFrame的columns属性来查看即可,代码如下所示:

import pandas as pd
​
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

返回的结果为:
在这里插入图片描述
Melbourne数据集中有一些缺失值,即有一些房子的特征值没有被记录。在后面的章节中将介绍如何处理缺失值,此处我们采取最简单的操作,即剔除数据中的缺失值。代码如下所示:

melbourne_data = melbourne_data.dropna(axis=0)

需要注意的是参数:axis=0表示的是删除含有缺失值的行记录。

选择数据子集的方法有多种,通常使用的是以下两种操作:

  • 点操作,可以用来选择目标变量<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值