机器学习——决策树建模及预测

最新推荐文章于 2024-07-17 17:37:20 发布

数据分析师之家

最新推荐文章于 2024-07-17 17:37:20 发布

阅读量1.4w

点赞数 6

分类专栏：机器学习数据分析师手记

本文链接：https://blog.csdn.net/fwj_ntu/article/details/88420099

版权

本文详细介绍了如何分4步构建决策树预测模型，包括选择数据集、预测目标变量、特征变量的选择以及模型构建过程。使用scikit-learn库，通过定义、拟合、预测和评估模型来完成建模任务。

摘要由CSDN通过智能技术生成

本篇中将分4步介绍一个简单的决策树预测模型的构建过程，让你对建模过程有初步了解。

1. 选择数据集

你的数据集中变量太多了，让人摸不着头脑，即便是打印出来也看不清楚。怎样才能把这些庞大的数据集简化为能看得懂的东西呢？

在这篇中我们先依据直觉选择几个变量。稍后的篇章中将介绍如何利用统计类技巧优化变量。

为了挑选一些特征变量，我们先要看一下数据集中有哪些字段。通过DataFrame的columns属性来查看即可，代码如下所示：

import pandas as pd

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

返回的结果为：
在这里插入图片描述
Melbourne数据集中有一些缺失值，即有一些房子的特征值没有被记录。在后面的章节中将介绍如何处理缺失值，此处我们采取最简单的操作，即剔除数据中的缺失值。代码如下所示：

melbourne_data = melbourne_data.dropna(axis=0)

需要注意的是参数：axis=0表示的是删除含有缺失值的行记录。

选择数据子集的方法有多种，通常使用的是以下两种操作：

点操作，可以用来选择目标变量<

最低0.47元/天解锁文章

数据分析师之家

关注

6
点赞
踩
59

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录