ML模型4:决策树

本文详细介绍了决策树的常见类型,包括ID3、C4.5和CART算法。ID3算法基于信息增益,C4.5对其进行了改进,处理连续特征、信息增益问题和缺失值。CART树采用基尼指数,仅进行二分划分。决策树的主要优点包括直观、不需要预处理、处理离散和连续值的能力,但也存在过拟合等问题。
摘要由CSDN通过智能技术生成

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树是非常常用的分类方法,既可以用于分类,又可以用于回归。

选择及切分特征时,通过一种衡量标准,计算通过不同特征进行分支选择后的分类情,找出最好的作为分类节点。

1. 常见决策树

1.1 ID3

ID3算法是决策树的一种,基于奥卡姆剃刀原理,即用尽量用较少的东西做更多的事。ID3算法( Iterative Dichotomiser 3),迭代二叉树3代,是Ross Quinlan发明的一种决策树算法,这个算法的基础就是上面提到的奥卡姆剃刀原理,越是小型的决策树越优于大的决策树,尽管如此,也不总是生成最小的树型结构,而是一个启发式算法。

在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是 以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。 该算法采用自顶向下的贪婪搜索遍历可能的决策空间。

信息熵: 表示系统有序化程度的度量。一个系统越有序,信息熵越低,反之越是混乱,它的信息熵越高。

H ( X ) = − ∑ i = 1 n p i log ⁡ 2 ( p i ) H(X)=-\sum_{i=1}^{n} p_i \log_2(p_i) H(X)=i=1npilog2(pi)

信息增益: 表示特征X使得类Y的不确定性减少的程度。信息增益是针对一个一个特征而言的,就是看一个特征,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。

数据集D的信息熵:
H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ log ⁡ 2 ( ∣ C k ∣ ∣ D ∣ ) H(D)=-\sum_{k=1}^{K} \frac{|C_k|}{|D|} \log_2(\frac{|C_k|}{|D|}) H(D)=k=1KDCklog2(DCk)
特征A对数据集D的信息增益(条件熵):
H ( D ∣ A ) = ∑ i = 1 n H ( D i ) = − ∑ i = 1 n ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ log ⁡ 2 ( ∣ D i k ∣ ∣ D i ∣ ) H(D|A)=\sum_{i=1}^{n} H(D_i)=-\sum_{i=1}^{n} \sum_{k=1}^{K} \frac{|D_{ik}|}{|D_i|} \log_2(\frac{|D_{ik}|}{|D_i|}) H(DA)=i=1nH(Di)=i=1nk=1KD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值