波士顿房价预测python决策树_决策树算法-实战篇-鸢尾花及波士顿房价预测

最新推荐文章于 2022-10-30 22:03:42 发布

weixin_39723678

最新推荐文章于 2022-10-30 22:03:42 发布

阅读量1.2k

点赞数 1

文章标签：波士顿房价预测python决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39723678/article/details/111426044

版权

本文介绍了如何使用Python的scikit-learn库构建决策树模型，包括决策树的基本概念、数据集的导入、分类树和回归树的构造，以及模型评估和特征重要性的可视化。通过实例展示了使用鸢尾花数据集进行分类和波士顿房价数据集进行回归预测的过程。

摘要由CSDN通过智能技术生成

上篇文章介绍了决策树算法的理论篇，本节来介绍如何用决策树解决实际问题。

决策树是常用的机器学习算法之一，决策树模型的决策过程非常类似人类做判断的过程，比较好理解。

决策树可用于很多场景，比如金融风险评估，房屋价格评估，医疗辅助诊断等。

要使用决策树算法，我们先来介绍一下 scikit-learn 。

1，scikit-learn

scikit-learn 是基于Python 的一个机器学习库，简称为sklearn，其中实现了很多机器学习算法。我们可以通过sklearn 官方手册来学习如何使用它。

sklearn 自带数据集

要进行数据挖掘，首先得有数据。sklearn 库的datasets 模块中自带了一些数据集，可以方便我们使用。

sklearn 自带数据集：

鸢尾花数据集：load_iris()

乳腺癌数据集：load_breast_cancer()

手写数字数据集：load_digits()

糖尿病数据集：load_diabetes()

波士顿房价数据集：load_boston()

体能训练数据集：load_linnerud()

葡萄酒产地数据集：load_wine()

冒号后边是每个数据集对应的函数，可以使用相应的函数来导入数据。

比如我们用如下代码导入鸢尾花数据集：

from sklearn.datasets import load_iris

iris = load_iris()

使用dir(iris) 查看iris 中包含哪些属性：

>>> dir(iris)

['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names']

2，sklearn 中的决策树

sklearn 库的tree 模块实现了两种决策树：

sklearn.tree.DecisionTreeClassifier 类：分类树的实现。

sklearn.tree.DecisionTreeRegressor 类：回归树的实现。

分类树用于预测离散型数值，回归树用于预测连续性数值。

sklearn 只实现了预剪枝，没有实现后剪枝。

DecisionTreeClassifier 类的构造函数

def __init__(self, *,

criterion="gini",

splitter="best",

max_depth=None,

min_samples_split=2,

min_samples_leaf=1,

min_weight_fraction_leaf=0.,

max_features=None,

random_state=None,

max_leaf_nodes=None,

min_impurity_decrease=0.,

min_impurity_split=None,

class_weight=None,

ccp_alpha=0.0):

DecisionTreeClassifier 类的构造函数中的criterion 参数有2 个取值：

entropy：表示使用 ID3 算法(信息增益)构造决策树。

gini：表示使用CART 算法(基尼系数)构造决策树，为默认值。

其它参数可使用默认值。

sklearn 库中的决策分类树只实现了ID3 算法和CART 算法。

DecisionTreeRegressor 类的构造函数

def __init__(self, *,

criterion="mse",

splitter="best",

max_depth=None,

min_samples_split=2,

min_samples_leaf=1,

min_weight_fraction_leaf=0.,

max_features=None,

random_state=None,

max_leaf_nodes=None,

min_impurity_decrease=0.,

min_impurity_split=None,

ccp_alpha=0.0):

DecisionTreeRegressor 类的构造函数中的criterion 参数有4 个取值：

mse：表示均方误差算法，为默认值。

最低0.47元/天解锁文章

weixin_39723678

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。