机器学习----决策树前篇(熵)

首先,首先,要吐槽CSDN的这个什么MarkDown编辑器,你看到的这篇是第二遍了。写下一篇的时候要点写新文章才行。之前这篇都在审核了喂,竟然被覆盖了。
这里写图片描述

#信息熵
  我们这里说的熵(Entropy)是信息熵,是香农提出的,不是克劳修斯提出的,那是物理学里的。我们说的熵是用来度量信息量的。比如,我问你,你猜我饿不饿?饿与不饿,只有两种状态,所以信息量是1bit。可以理解成,现在我告诉你我的状态这个信息,有“1”这么大的信息量。吴军在《数学之美》里举的例子是世界杯,猜大力神杯被哪个队拿走。因为有32强,所以用2分法,要猜5次就行了,信息量是5bit。可以理解成,我直接告诉你这次世界杯冠军是哪个队,有“5”这么大的信息量。
  但是,这都是所有事件发生的概率相同的情况下,如果不同情况也就不同了。比如,我们刚吃完自助餐出来,这是我问你,你猜我饿不饿?“我都懒得猜”你说。为什么呢?因为我基本不可能饿,我就算给你答案,信息量也很小。世界杯也是,每个队伍获得冠军的概率不一样。这是信息量的计算为:
   H ( x ) = − ∑ x P ( x ) log ⁡ P ( x ) H(x)=-\sum_{x}P(x)\log P(x) H(x)=xP(x)logP(x)
#熵的性质
1、熵均大于等于零,即,Hs ≥ 0。
2、设N是系统S内的事件总数,则熵Hs ≤ logN。当且仅当p1=p2=…=pn时,等号成立,此时系统S的熵最大。
3、联合熵:H(X,Y) ≤ H(X) + H(Y),当且仅当X,Y在统计学上相互独立时等号成立。
4、条件熵:H(X|Y) = H(X,Y) - H(Y) ≤ H(X),当且仅当X,Y在统计学上相互独立时等号成立。
##条件熵(Conditional Entropy)
假定X和Y是两个随机变量,X是我们需要了解的。假定我们现在知道了X的随机分布P(X),那么也就知道了X的熵:
H ( x ) = − ∑ x P ( x ) log ⁡ P ( x ) H(x)=-\sum_{x}P(x)\log P(x) H(x)=xP(x)logP(x)
那么它的不确定性就是这么大。现在假定我们还知道Y的一些情况,包括它和X一起出现的概率,在数学上称为联合概率分布(Joint Probability),以及在Y取不同值的前提下X的概率分布,在数学上称为条件概率分布(Conditional Probability)。定义在Y的条件下的条件熵为:
H ( X ∣ Y ) = − ∑ x ∈ X , y ∈ Y P ( x , y ) log ⁡ P ( x ∣ y ) H(X|Y)=-\sum_{x\in X,y\in Y}P(x,y)\log P(x|y) H(XY)=xX,yYP(x,y)logP(xy)

KaTeX parse error: No such environment: align at position 9: \begin{̲a̲l̲i̲g̲n̲}̲ H(X,Y)-H(Y) &…

也就是说多了Y的信息之后,关于X的不确定性下降了。在统计语言模型中,如果把Y看成是前一个字,那么在数学书就证明了二元模型的不确定性小于一元模型。同理,可以定义有两个条件的条件熵:
H ( X ∣ Y , Z ) = − ∑ x ∈ X , y ∈ Y P ( x , y , z ) log ⁡ P ( x ∣ y , z ) H(X|Y,Z)=-\sum_{x\in X,y\in Y}P(x,y,z)\log P(x|y,z)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值