机器学习1:信息熵

1.在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵信息熵也称信源熵、平均自信息量
2.从直观上说,信息熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。
3.信息论中,是接收的每条消息中包含的信息的平均量,又被称为信息熵信源熵平均自信息量。这里, 消息代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。由于一些其他的原因(下面会有解释),把信息(熵)定义为概率分布的对数的相反数是有道理的。事件的概率分布和每个事件的信息量构成了一个随机变量,这个随机变量的均值(即期望)就是这个分布产生的信息量的平均值(即熵)。熵的单位通常为比特,但也用Sh、nat、Hart计量,取决于定义用到对数的底。

4.香农把随机变量 X 的熵值 Η(希腊字母Eta)定义如下,其值域为 {x1,..., xn}:   

 \Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))].

 其中, P 为 X 概率质量函数(probability mass function),E 为期望函       数,而 I(X) 是 X 的信息量(又称为自信息)。I(X) 本身是个随机变数。

 当取自有限的样本时,熵的公式可以表示为: 

 \Eta(X) = \sum_{i} {\mathrm{P}(x_i)\,\mathrm{I}(x_i)} = -\sum_{i} {\mathrm{P}(x_i) \log_b \mathrm{P}(x_i)},

在这里 b 对数所使用的,通常是 2, 自然常数 e,或是10。当b 2,熵的单    位是bit;当b e,熵的单位是 nat;而当 b 10,熵的单位是 Hart。

pi 0时,对于一些i值,对应的被加数0 logb 0的值将会是0,这与极限一致。

\lim_{p\to0+}p\log p = 0.

还可以定义事件 X 与 Y 分别取 xi 和 yj 时的条件熵

\Eta(X|Y)=\sum_{i,j}p(x_{i},y_{j})\log\frac{p(y_{j})}{p(x_{i},y_{j})}

其中 p(xiyj) 为 X xi 且 Y yj 时的概率。这个量应当理解为你知道 Y 的值    前提下随机变量 X 的随机性的量。

例子如下:

如果有一个系统S内存在多个事件S = {E1,...,En},每个事件的概率分布 P = {p1,    ..., pn},则每个事件本身的讯息(自信息)为:

I_e = -\log_2 {p_i} (对数以2为底,单位是比特(bit))
I_e = -\ln {p_i} (对数以e为底,单位是纳特/nats)

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量    为:

I_e = -\log_2 {1\over 26} = 4.7

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信    息量为:

I_e = -\log_2 {1\over 2500} = 11.3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值