决策树算法梳理

本文深入探讨了信息论基础,包括熵、信息熵、联合熵和条件熵,以及它们在决策树算法中的作用。接着介绍了ID3、C4.5和CART三种决策树分类算法,分析了各自的优缺点和防止过拟合的手段。此外,还阐述了回归树的原理和决策树的模型评估方法。最后,详细讲解了sklearn中决策树的关键参数及其作用。
摘要由CSDN通过智能技术生成

一、信息论基础:

熵是热力学中表征物质状态的参量之一,其物理意义是体系混乱程度的度量

信息熵

1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

联合熵

联合熵就是度量一个联合分布的随机系统的不确定度,联合熵的物理意义是:观察一个多个随机变量的随机系统获得的信息量。下面给出两个随机变量的联合熵的定义:分布为 p(x,y)p(x,y)p(x,y) 的一对随机变量 (X,Y)(X,Y)(X,Y) ,其联合熵定义为:

H(X,Y)=−∑x∈X​∑y∈Y​p(x,y)logp(x,y)=E[logp(x,y)1​]

条件熵

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望:

条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即:H(Y|X)=H(X,Y)−H(X)

因此,可以这样理解,描述 X 和 Y 所需的信息是描述 X 自己所需的信息,加上给定 X 的条件下具体化 Y 所需的额外信息。

信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:

基尼不纯度

基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。

是在进行决策树编程的时候,对于混杂程度的预测中,一种度量方式。


二、决策树的不同分类算法

ID3

ID3由Ross Quinlan在1986年提出。ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。决策树是一种贪心算法,每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值