python 决策树和随机森林_【python机器学习笔记】使用决策树和随机森林预测糖尿病...

最新推荐文章于 2024-01-16 16:21:49 发布

weixin_40008920

最新推荐文章于 2024-01-16 16:21:49 发布

阅读量676

点赞数 1

文章标签： python 决策树和随机森林

本文介绍了如何使用Python的决策树和随机森林算法进行糖尿病预测。通过Pima Indians Diabetes数据库，展示了如何训练决策树模型，讨论了熵、信息增益等概念，并引入了随机森林来提高预测准确性。实验结果显示，随机森林在6棵树时达到约81%的预测准确率。

摘要由CSDN通过智能技术生成

决策树：一种有监督的机器学习分类算法，可以训练已知数据，做出对未知数据的预测。

机器学习中的分类任务殊途同归，都是要根据已知的数据特征获得最佳的分类方法。对于一个有多个特征的数据，我们需要知道根据哪些特征、怎么使用这些特征来分类能达到最好的分类效果。决策树能够形成一棵分类树，每个分叉处都是根据已知特征选取的局部最优的分类办法，最后得到一套完整的分类方法，也就是一棵决策树。那么如何获得每个分叉处的局部最优解？就要引入信息熵、条件熵的概念。具体公式网络上已有充分的资料可供学习：https://blog.csdn.net/am290333566/article/details/81187124

抽象而言，

信息熵就是衡量信息不确定性的指标。

条件熵是已知一些信息后，目标信息的不确定性。

信息增益=信息熵-条件熵。也就是知道了某个新信息后，目标的不确定性减小了多少。

在一个分类树中，一个父节点根据某些条件分成了多个子节点。而父节点和子节点各自都有出现的概率(可以用熵来表示)，决策树的目标，是使得每次分叉信息增益最大。

实例：根据糖尿病数据做出预测

数据集：Pima Indians Diabetes Database，数据都是女性，包含多个特征：年龄、血压、怀孕次数、BMI指数、皮肤厚度等。https://www.kaggle.com/uciml/pima-indians-diabetes-database#diabetes.csvwww.kaggle.com

# 导入数据包

import pandas as pd

from sklearn.tree import DecisionTreeClassifier

最低0.47元/天解锁文章

weixin_40008920

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python 决策树和随机森林_【python机器学习笔记】使用决策树和随机森林预测糖尿病...

决策树：一种有监督的机器学习分类算法，可以训练已知数据，做出对未知数据的预测。机器学习中的分类任务殊途同归，都是要根据已知的数据特征获得最佳的分类方法。对于一个有多个特征的数据，我们需要知道根据哪些特征、怎么使用这些特征来分类能达到最好的分类效果。决策树能够形成一棵分类树，每个分叉处都是根据已知特征选取的局部最优的分类办法，最后得到一套完整的分类方法，也就是一棵决策树。那么如何获得每个分叉处的局部...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。