机器学习----决策树前篇（熵）

最新推荐文章于 2024-04-30 16:55:48 发布

这题我会啊

最新推荐文章于 2024-04-30 16:55:48 发布

阅读量1.1k

点赞数 1

分类专栏： machine-learning 文章标签：机器学习信息论

本文链接：https://blog.csdn.net/Love_wanling/article/details/64924152

版权

首先，首先，要吐槽CSDN的这个什么MarkDown编辑器，你看到的这篇是第二遍了。写下一篇的时候要点写新文章才行。之前这篇都在审核了喂，竟然被覆盖了。
这里写图片描述

#信息熵
　　我们这里说的熵（Entropy）是信息熵，是香农提出的，不是克劳修斯提出的，那是物理学里的。我们说的熵是用来度量信息量的。比如，我问你，你猜我饿不饿？饿与不饿，只有两种状态，所以信息量是1bit。可以理解成，现在我告诉你我的状态这个信息，有“1”这么大的信息量。吴军在《数学之美》里举的例子是世界杯，猜大力神杯被哪个队拿走。因为有32强，所以用2分法，要猜5次就行了，信息量是5bit。可以理解成，我直接告诉你这次世界杯冠军是哪个队，有“5”这么大的信息量。
　　但是，这都是所有事件发生的概率相同的情况下，如果不同情况也就不同了。比如，我们刚吃完自助餐出来，这是我问你，你猜我饿不饿？“我都懒得猜”你说。为什么呢？因为我基本不可能饿，我就算给你答案，信息量也很小。世界杯也是，每个队伍获得冠军的概率不一样。这是信息量的计算为：
　　 $H(x)=-\sum_{x}P(x)\log P(x)$
#熵的性质
1、熵均大于等于零，即，Hs ≥ 0。
2、设N是系统S内的事件总数，则熵Hs ≤ logN。当且仅当p1=p2=…=pn时，等号成立，此时系统S的熵最大。
3、联合熵：H(X,Y) ≤ H(X) + H(Y)，当且仅当X，Y在统计学上相互独立时等号成立。
4、条件熵：H(X|Y) = H(X,Y) - H(Y) ≤ H(X)，当且仅当X，Y在统计学上相互独立时等号成立。
##条件熵（Conditional Entropy）
假定X和Y是两个随机变量，X是我们需要了解的。假定我们现在知道了X的随机分布P(X)，那么也就知道了X的熵：
$H(x)=-\sum_{x}P(x)\log P(x)$
那么它的不确定性就是这么大。现在假定我们还知道Y的一些情况，包括它和X一起出现的概率，在数学上称为联合概率分布(Joint Probability)，以及在Y取不同值的前提下X的概率分布，在数学上称为条件概率分布(Conditional Probability)。定义在Y的条件下的条件熵为：
$H(X|Y)=-\sum_{x\in X,y\in Y}P(x,y)\log P(x|y)$