机器学习算法梳理（三）：决策树

最新推荐文章于 2023-12-19 14:50:48 发布

flyrzl

最新推荐文章于 2023-12-19 14:50:48 发布

阅读量186

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

信息论基础

熵：表示随机变量的不确定性。H(X) = -Σp(x)lnp(x)

联合熵：两个随机变量X，Y的联合分布，可以形成联合熵（Joint Entropy）。H(X, Y) = -Σp(x, y) lnp(x, y)

条件熵：表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。H(Y|X)=H(X,Y)−H(X)

信息增益：在一个条件下，信息不确定性减少的程度。信息增益 = 熵 - 条件熵

基尼不纯度：将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。

决策树的不同分类算法

ID3算法

ID3算法是决策树的一种，它是基于奥卡姆剃刀原理的，即用尽量用较少的东西做更多的事。ID3算法，即Iterative Dichotomiser 3，迭代二叉树3代，是Ross Quinlan发明的一种决策树算法，这个算法的基础就是上面提到的奥卡姆剃刀原理，越是小型的决策树越优于大的决策树，尽管如此，也不总是生成最小的树型结构，而是一个启发式算法。

在信息论中，期望信息越小，那么信息增益就越大，从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择，选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。

c++实现算法：https://www.cnblogs.com/starfire86/p/5749328.html

C4.5

C4.5算法流程与ID3相类似，只不过将信息增益改为信息增益比。

CART分类树

https://www.cnblogs.com/yonghao/p/5135386.html

回归树

https://blog.csdn.net/weixin_40604987/article/details/79296427

决策树防止过拟合的手段

https://blog.csdn.net/qq_28168421/article/details/53456090

模型评估

参考：https://blog.csdn.net/longgb123/article/details/52972604

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。