[机器学习]决策树和随机森林算法简介

最新推荐文章于 2024-06-19 14:27:57 发布

Frankkk_

最新推荐文章于 2024-06-19 14:27:57 发布

阅读量1.8k

点赞数 2

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Frankkk_/article/details/80444035

版权

本文介绍了决策树的结构、特征选择和ID3算法，探讨了集成学习的概念，重点讲解了随机森林算法，强调了其在决策树基础上引入随机属性选择以增强多样性，提升了泛化性能。

摘要由CSDN通过智能技术生成

决策树和随机森林算法简介

1-决策树

1.1-决策树模型的结构

决策树（decision tree）是一种分类与回归方法，本文主要讨论用于分类的决策树，决策树的结构呈树形结构，在分类问题中，其代表基于特征对数据进行分类的过程，通常可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型可读性好并且分类速度快。训练的时候，利用训练数据根据损失函数最小化的原则建立决策树模型。预测时对于新的数据，利用决策树进行分类。决策树的学习通常包括三个步骤：特征选择，生成决策树，对决策树进行剪枝。这些决策树的思想主要来自Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法，以及Breiman等人在1984年提出的CART算法。

用于分类的决策树是一种对数据进行分类的树形结构。决策树主要由节点（node）和有向边（directed edge）组成。节点有两种类型：内部节点（internal node）以及叶节点（leaf node）。内部节点表示一个特征或者属性，叶节点表示一个类。其结构如图所示：
决策树算法的结构

1.2-特征选择

特征选择在于选取对训练数据具有分类能力的特征，这样可以提高决策树的学习效率，如果利用一个特征进行分类的结果与随机分类的结果没有太大差别，则称这个特征是没有分类能力的。通常扔掉这样的特征对于决策树的学习精度影响不大，通常特征选取的准则是信息增益或者信息增益比。

在信息论中，熵（entropy）是表示随机变量不确定性的度量，设X是一个取有限个值得离散随机度量，其概率分布为：

P (X = x i) = p i, i = 1, 2, . . ., n

$P(X={{x}_{i}})={{p}_{i}},i=1,2,...,n$

那么随机变量的熵定义为：

H (X) = - \sum i = 1 n p i log p i

$H(X)=-\sum\limits_{i=1}^{n}{{{p}_{i}}\log {{p}_{i}}}$
熵越大，随机变量的不确定性越大，从定义可以验证

0 \leq H (p) \leq log n

$0\le H(p)\le \log n$
当

p=0 p = 0 $p=0$ 或

p=1 p = 1 $p=1$ 时

H(p)=0 H ( p ) = 0 $H(p)=0$ ，随机变量完全没有不确定性，当

p=0.5

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
[机器学习]决策树和随机森林算法简介

决策树和随机森林算法简介1-决策树1.1-决策树模型的结构决策树（decision tree）是一种分类与回归方法，本文主要讨论用于分类的决策树，决策树的结构呈树形结构，在分类问题中，其代表基于特征对数据进行分类的过程，通常可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型可读性好并且分类速度快。训练的时候，利用训练数据根据损失函数...
复制链接

扫一扫

专栏目录

Frankkk_ CSDN认证博客专家 CSDN认证企业博客

码龄6年

25: 原创

23万+: 周排名

152万+: 总排名

10万+: 访问

: 等级

1110: 积分

41: 粉丝

47: 获赞

14: 评论

169: 收藏

私信

关注

分类专栏

最新评论

[最优化]等式约束的优化问题求解
Ling·Gabay: 请问切线空间的定义中，Dh(x*)是什么矩阵，它与y相乘的含义是什么？
[机器学习]KITTI的雷达+摄像头数据融合
Achas: 博主你好，可以自己制作没有图像只有激光雷达的KITTI数据集吗？
[机器学习]KITTI的雷达+摄像头数据融合
qq_37733759: 请问下运行run_demoVelodyne.m程序，图片上怎么根据距离显示不同的颜色的啊
[机器学习]KITTI的雷达+摄像头数据融合
潇湘夜雨~: 博主有Python版本的代码嘛，十分感谢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。