决策树

最新推荐文章于 2018-03-20 22:03:39 发布

leo鱼

最新推荐文章于 2018-03-20 22:03:39 发布

阅读量2.7k

点赞数 1

分类专栏：数据挖掘文章标签：决策树 ID3 C4.5 CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/webzjuyujun/article/details/49495545

版权

数据挖掘专栏收录该内容

18 篇文章 1 订阅

订阅专栏

决策树算法比较

	ID3	C4.5	CART(分类)	CART(回归)
树类型	多叉树	多叉树	二叉树	二叉树
特征选择（以及剪枝时的损失函数）	信息增益（熵）	信息增益率（熵）	基尼系数	平方误差最小
损失函数	Ca(T)=C(T)+a\|T\|	Ca(T)=C(T)+a\|T\|	Ca(T)=C(T)+a\|T\|	Ca(T)=C(T)+a\|T\|
(预测误差)C(T)计算方式	熵	熵	基尼系数	平方误差最小
剪枝方式	后剪枝	后剪枝	后剪枝	后剪枝
树复杂度	复杂	复杂	较整洁	较整洁

C4.5算法

（Y是目标变量即最终类别，Ai为各个自变量）

熵：Entropy(S) = sum(p(Y=yi)*log(1/p(Y=yi)))

信息增益：Gain(Ai) = 分裂前目标变量Y的信息熵 - 对自变量Ai分裂后目标变量Y的信息熵=Entropy(S) - Entropy(S|Ai)

缺点：它偏向选择取值较多的自变量作为分裂节点

信息增益率：相比于信息增益，它在其基础上除以样本中分裂对应自变量的熵（splitINFO=Entropy(Ai)=sum(p(Ai=numj*log(1/p(Ai=numj))))）

公式：GainRatio(A2) = Gain(A2)/splitINFO(A2)

分裂节点的选择：

选择信息增益率大的变量进行分裂

停止分裂：

1.一个节点中的所有目标变量样本均属于同一个类别

2.若没有自变量可以用于划分当前样本，则把数目最多的类别作为该节点的类别

3.如果分裂后样本的数目小于给定的阀值则停止分裂（其实也是一种前剪枝方法）

后剪枝法：

1.按照置信度阀值来后剪枝

2.按照子节点和父节点的误差对比来剪枝

CART算法（分类）

数的结构：二叉树

节点分裂：按照利用基尼系数计算的信息增益

信息增益（分类树）：Gini=分裂前目标变量Y的Gini-对自变量Ai分裂后目标变量Y的Gini=Gini(S)-Gini(S|Ai)

信息增益缺点：基尼系数计算的信息增益跟熵类似都存在偏向选择取值较多的自变量作为分裂节点

解决方式：采用只能二分支分裂来解决

停止分裂：

1.决策树最大深度

2.节点包含最小样本数

3.树中叶节点包含的最小样本数：如果自变量A分裂后生成的叶节点所包含的样本数低于最小样本数则此次分裂无效

后剪枝：

1.采用最小代价复杂度剪枝法，目的使误差和决策树的规模都尽可能的小

CART算法（回归）

数的结构：二叉树

节点分裂：寻找最优切分点

平方误差最小化：选择最优切分变量j与最优切分点s,求解

遍历变量j,对固定的切分变量j扫瞄切分点s,选择使上面的公式达到最小的对(j,s)

(c1/c2为R1/R2内yi的平均值)

其它同cart分类树

决策树总结

优点：

1.概念简单，计算复杂度不高，可解释性强，输出结果易于理解；

2.数据的准备工作简单，能够同时处理数据型和常规型属性，其他的技术往往要求数据属性的单一。

3.对中间值得确实不敏感，比较适合处理有缺失属性值的样本，能够处理不相关的特征；

4.应用范围广，可以对很多属性的数据集构造决策树，可扩展性强。决策树可以用于不熟悉的数据集合，并从中提取出一些列规则这一点强于KNN。

缺点：

1.容易出现过拟合；

2.对于那些各类别样本数量不一致的数据，在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。

3. 信息缺失时处理起来比较困难。忽略数据集中属性之间的相关性。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄14年

21
原创

19
点赞

90
收藏

42
粉丝

关注

私信

热门文章

分类专栏

最新评论

xgboost on yarn and xgboost4j-spark部署
qq_19312071: nWorkers 不一定要小于 executors的数量，但要小于 executors * cores 的数量
xgboost on yarn and xgboost4j-spark部署
qq_19312071: https://blog.csdn.net/webzjuyujun/article/details/78553518
BP神经网络的网络带宽预测
weixin_44886472: 你好，可以留个联系方式吗？有一些不懂的地方想咨询一下你。
随机森林
leo鱼: 最好将连续特征进行离散化处理，比如分桶
逻辑回归key points
leo鱼: 离散化也可以把数据集合转换为稀疏数据集，适用于逻辑回归以及fm等算法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。