通俗理解条件熵



1   信息熵以及引出条件熵


我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。公式如下:


我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望


这个还是比较抽象,下面我们解释一下:


设有随机变量(X,Y),其联合概率分布为 




条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。


随机变量X给定的条件下随机变量Y的条件熵H(Y|X)

2   公式


下面推导一下条件熵的公式:




3   注意



注意,这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?而是期望!


因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望


这是最容易错的!


4   例子


下面通过例子来解释一下:




假如我们有上面数据:


设随机变量Y={嫁,不嫁}


我们可以统计出,嫁的个数为6/12 = 1/2


不嫁的个数为6/12 = 1/2


那么Y的熵,根据熵的公式来算,可以得到H(Y) =  -1/2log1/2 -1/2log1/2


为了引出条件熵,我们现在还有一个变量X,代表长相是帅还是帅,当长相是不帅的时候,统计如下红色所示:




可以得出,当已知不帅的条件下,满足条件的只有4个数据了,这四个数据中,不嫁的个数为1个,占1/4


嫁的个数为3个,占3/4


那么此时的H(Y|X = 不帅) = -1/4log1/4-3/4log3/4


p(X = 不帅) = 4/12 = 1/3


同理我们可以得到:

当已知帅的条件下,满足条件的有8个数据了,这八个数据中,不嫁的个数为5个,占5/8


嫁的个数为3个,占3/8


那么此时的H(Y|X = 帅) = -5/8log5/8-3/8log3/8


p(X = 帅) = 8/12 = 2/3


5   计算结果


有了上面的铺垫之后,我们终于可以计算我们的条件熵了,我们现在需要求:


H(Y|X = 长相)


也就是说,我们想要求出当已知长相的条件下的条件熵。


根据公式我们可以知道,长相可以取帅与不帅俩种


条件熵是另一个变量Y熵对X(条件)的期望。

公式为:




H(Y|X=长相) = p(X =帅)*H(Y|X=帅)+p(X =不帅)*H(Y|X=不帅)


然后将上面已经求得的答案带入即可求出条件熵!


这里比较容易错误就是忽略了X也是可以取多个值,然后对其求期望!!


6   总结



其实条件熵意思是按一个新的变量的每个值对原变量进行分类,比如上面这个题把嫁与不嫁按帅,不帅分成了俩类


然后在每一个小类里面,都计算一个小熵,然后每一个小熵乘以各个类别的概率,然后求和。


我们用另一个变量对原变量分类后,原变量的不确定性就会减小了,因为新增了Y的信息,可以感受一下。不确定程度减少了多少就是信息的增益。




原文来源: 作者:忆臻

<think>好的,我需要回答用户关于决策树算法的问题,包括其基本概念、工作原理和原理简介。首先,我需要回顾一下决策树的相关知识,确保自己理解正确。决策树是一种监督学习算法,用于分类和回归任务。它的结构类似于树,有根节点、内部节点和叶节点。每个内部节点代表一个特征或属性上的判断条件,分支代表判断结果,叶节点代表最终的决策结果。 接下来,我需要解释决策树如何工作。通常包括特征选择、树的生成和剪枝。特征选择是关键,常用的方法有信息增益、信息增益比和基尼指数。比如,ID3算法使用信息增益,C4.5使用信息增益比,CART使用基尼指数。这部分需要详细说明,但要注意用中文和正确的LaTeX格式。例如,信息增益的公式应该是$IG(D, A) = H(D) - H(D|A)$,其中$H(D)$是数据集D的经验熵,$H(D|A)$是在特征A条件下的经验条件熵。 然后,树的生成过程是递归的。从根节点开始,根据特征选择方法选择最优特征,分割数据集,生成子节点。重复这个过程直到满足停止条件,比如所有样本属于同一类别,或者没有更多特征可用。这里可能需要提到过拟合的问题,因此剪枝是必要的,通过预剪枝或后剪枝来简化模型,提高泛化能力。 还要注意用户提到的引用,需要正确引用站内资料。例如,引用[^3]提到构建决策树的过程包括特征选择、决策节点的确定、树的生成和剪枝,这和我的解释一致,可以在适当的地方引用。 用户可能不太理解如何选择特征,所以需要举例说明。比如,使用信息增益时,选择能最大减少不确定性的特征。而基尼指数则衡量数据的不纯度,选择划分后基尼指数最小的特征。 此外,需要确保所有的数学公式用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$。例如,基尼指数的公式应该是$Gini(D) = 1 - \sum_{k=1}^{K} p_k^2$,其中$p_k$是第k类样本的比例。 最后,生成相关问题时要考虑用户可能的后续疑问,比如决策树的优缺点、不同算法比较(ID3 vs CART)、如何处理连续值或缺失值等。确保问题相关且有助于深入理解。 总结一下,回答的结构应该是:基本概念、工作原理(特征选择、生成、剪枝)、原理简介,然后相关问题。确保每个部分引用正确的来源,如特征选择部分引用,应用场景引用[^1]等。</think>### 决策树算法基本概念与原理 #### 1. **什么是决策树?** 决策树是一种**监督学习算法**,通过树状结构对数据进行分类或回归。其核心思想是通过对特征值的逐步判断,最终达到预测目标变量的目的。树的结构包含: - **根节点**:初始判断条件(特征) - **内部节点**:中间判断条件(特征) - **叶节点**:最终的分类或回归结果[^3] #### 2. **如何工作?** 决策树的构建分为以下步骤: **(1)特征选择** 选择对数据集划分最有效的特征。常用指标包括: - **信息增益**(ID3算法): 公式为 $IG(D, A) = H(D) - H(D|A)$,其中 $H(D)$ 是数据集的经验熵,$H(D|A)$ 是特征 $A$ 的条件熵。 - **基尼指数**(CART算法): 公式为 $Gini(D) = 1 - \sum_{k=1}^{K} p_k^2$,选择划分后基尼指数最小的特征[^2]。 **(2)树的生成** 递归地分割数据集: 1. 从根节点开始,选择最优特征进行划分。 2. 对每个子节点重复上述过程,直到满足停止条件(如所有样本属于同一类别、无剩余特征或达到预设深度)。 **(3)剪枝** 为防止过拟合,通过预剪枝(提前终止分裂)或后剪枝(生成完整树后裁剪)优化树结构。 #### 3. **原理简介** 决策树的本质是通过**最大化信息增益**或**最小化不纯度**,将数据划分到更“纯净”的子集中。例如: - **分类任务**:叶节点输出类别标签。 - **回归任务**:叶节点输出连续值(如均值)。 $$ \text{示例:基尼指数计算} \\ Gini(D) = 1 - (p_{\text{是}}^2 + p_{\text{否}}^2) $$ --- ###
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值