决策树

决策树的基本知识

决策树的构建步骤:特征选择,抉择树生成,决策树剪纸

信息熵:信息的不确定程度,不确定性越大,熵越大。

2.决策树生成算法(ID3,C4.5,CART)

1)ID3算法是决策树的一个经典构造算法,使用信息熵和信息增益来构建。(可以是二叉树也可以是多叉树)

优点:构建快,实现简单
缺点:对缺省值敏感,只能对离散特征建模,只需要小规模数据集,需要将全部数据放入内存
单变量特征树:不能对两个特征之间的关系进行建模

2)C4.5算法是ID3算法的一些优化,使用信息增益率取代ID3中的信息增益。在树的构造过程中会使用剪枝进行优化。(可以是二次树和多叉树)

优点:准确率高,实习简单
缺点:需要多次扫描和排序,效率低,单变量决策树,适合小规模,需要将数据全部放入内存中

3)CART算法,使用GINI增益(基尼系数)作为分割属性选择的标准。CART模型只能是二叉树。
效果:CART>C4.5>ID3
ID3,C4.5只能在小规模数据集上使用,都是单变量决策树,可以是二叉树和多叉树。CART是最常用的一种决策树构建算法,只能是二叉树。

三种算法的区别仅仅是对于当前树的评价标准不同。

算法 支持模型  树结构    特征选择    连续值处理  取省值处理  剪枝  特征属性多次使用

ID3   分类   多叉树    信息增益   不支持    不支持    不支持      不支持

C4.5   分类    多叉树  信息增益率    支持     支持     支持     不支持

CART 分类or回归 二叉树  基尼系数|均方差  支持    支持    支持       支持

ID3决策树算法的构建:
https://blog.csdn.net/Leafage_M/article/details/79560128

C4.5决策树算法的构建:*****

CART树构建:
基尼指数表示集合D的不确定性,值越大表示不确定性越大,越小表示样本纯度越高。
G i n i = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 k p k 2 Gini=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{k}p_{k}^{2} Gini=k=1Kpk(1pk)=1k=1kpk2
如果是二分类问题则: G i n i ( p ) = 2 p ( 1 − p ) Gini(p)=2p(1-p) Gini(p)=2p(1p)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值