机器学习-决策树算法

最新推荐文章于 2024-08-04 21:08:26 发布

gao8658

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量2.6k

点赞数

分类专栏：算法研究文章标签：决策树 GBDT 随机森林人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaoyanjie55/article/details/81284731

版权

本文详述了决策树算法及其变种，包括ID3、C4.5和CART，探讨了信息熵、信息增益、基尼系数等概念。此外，还介绍了随机森林、Adaboost和GBDT的原理与区别，以及模型融合技术如Bagging和Stacking，是理解机器学习中决策树算法和相关方法的良好资料。

摘要由CSDN通过智能技术生成

1 决策树

决策树是一种能解决分类或回归问题的机器学习算法。

其有良好的扩展性，可以产生多种变种。

并且结合模型融合方法扩展新的算法AdaBoost，GBDT等算法。

参考文章：

C4.5算法详解（非常仔细）:https://blog.csdn.net/zjsghww/article/details/51638126

解释很详细：http://www.saedsayad.com/decision_tree.htm

决策树算法原理(上)：https://www.cnblogs.com/pinard/p/6050306.html

2 决策树算法

算法思想

决策树训练的过程就不段选择分裂属性将样本拆分到子树的子节点。最佳分裂属性应该是能让树分裂完成后，每棵子树的样本类别更纯，所以衡量不纯度的属性适合作为分裂的评价指标。

算法实例

以一个算法代入实例帮助理解决策树算法ID3，其他算法代入和使用方式类似。

A Step by Step ID3 Decision Tree Example：

https://sefiks.com/2017/11/20/a-step-by-step-id3-decision-tree-example/

2.1 ID3

2.1.1 信息熵

熵越大，样本类别越多。使用信息熵衡量分裂后的不纯度。信息增益相当于看分裂前后的熵的减少量。

We can summarize the ID3 algorithm as illustrated below

信息熵：

Entropy(S) = ∑ – p(I) . log2p(I)

信息增益：

Gain(S, A) = Entropy(S) – ∑ [ p(S|A) . Entropy(S|A) ]

These formulas might confuse your mind. Practicing will make it understandable.

2.1.2 算法流程

以下是算法描述：其中T代表当前样本集，当前候选属性集用T_attributelist表示。
　　（1）创建根节点N
　　（2）为N分配类别
　　（3）if T都属于同一类别or T中只剩下一个样本则返回N为叶节点，为其分配属性
　　（4）for each T_attributelist中属性执行该属性上的一个划分，计算此划分的信息增益
　　（5）N的测试属性test_attribute=T_attributelist中最大信息增益的属性
　　（6）划分T得到T1 T2子集
　　（7）对于T1重复（1）-（6）
　　（8）对于T2重复（1）-（6）

2.2 C4.5

2.2.1 信息增益率

算法倾向选择特征中属性值角度的特征。这时可以规范化信息增益，除以这个属性的熵值（

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。