西瓜书——决策树（知识点：信息熵的数学含义及推导）

最新推荐文章于 2023-07-19 00:02:39 发布

风之谷7888548

最新推荐文章于 2023-07-19 00:02:39 发布

阅读量1.1k

点赞数 1

文章标签：机器学习决策树信息熵西瓜书

本文链接：https://blog.csdn.net/baidu_38356450/article/details/103478861

版权

本文深入探讨决策树中的信息熵概念，包括其最大值和最小值的求解，以及如何体现样本集合的纯度。通过解析信息熵的公式，证明其在[0, log2|y|]范围内，值越小表示样本纯度越高。此外，文章还介绍了条件熵和信息增益，这些是决策树中选择最佳划分属性的关键指标。" 52444671,4948029,Android 6.0及以上版本的指纹识别实现,"['Android开发', '加密技术', '安全', '移动支付']

摘要由CSDN通过智能技术生成

对于决策树，有点像 $i f . . . e l s e$ 语句。最重要的点就是找到合适的属性来划分类别。对于那个用来划分类别的属性要符合一个条件，那就是划分后，集合的纯度提高了。所以我们往往是在一堆属性中，找到一个属性，该属性最能提高集合的纯度。本文将重点解释信息熵的数学含义。

一、信息熵

信息熵 $E n t (D)$ 是用来度量样本集合纯度的最常用指标。
$Ent(D)=-\sum_{k=1}^{|y|}p_k\log_2p_k$
（注：D代表当前样本集合， $p_k$ 代表当前样本中第k类样本所占的比例，|y|代表类别总数。）
西瓜书上直接给出了结论
（1） $log_2|y|≥Ent(D)≥0$
（2）当 $E n t (D)$ 的值越小，则样本的纯度越纯。
那么我们现在开始证明：
这两个结论是一起证明出来的。
对于信息熵的公式，我们发现只有一个自变量 $p_k$ ,所以我们可将信息熵的公式转换一下，变成 $f(x_1,x_2,x_3, \dots ,x_n)=- \sum_{k=1}^{n}x_k \log_2x_k,0≤x_k≤1, \sum_{k=1}^{n}x_k=1$
这样第一个结论就变成了多元函数求最值的问题了。
看到多元函数求最值的问题，我们似乎熟悉又陌生，熟悉因为这是考研数学的题型，陌生是因为考研数学的题型一般只有二元或三元，并且有好多情况是不需要分析的一股脑计算即可。

1.1 最大值求解

$f(x_1,x_2,x_3, \dots ,x_n)$ 的最大值也就是求 $\sum_{k=1}^{n}x_k \log_2x_k$

最低0.47元/天解锁文章

风之谷7888548

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
西瓜书——决策树（知识点：信息熵的数学含义及推导）

对于决策树，有点像if...elseif...elseif...else语句。最重要的点就是找到合适的属性来划分类别。对于那个用来划分类别的属性要符合一个条件，那就是划分后，集合的纯度提高了。所以我们往往是在一堆属性中，找到一个属性，该属性最能提高集合的纯度。本文将重点解释信息熵的数学含义。一、信息熵信息熵Ent(D)Ent(D)Ent(D)是用来度量样本集合纯度的最常用指标。Ent(D)=...
复制链接

扫一扫