最大熵模型

1.自信息量:定义为-logp(x)=log\frac{1}{p(x)},表示事件发生概率越大,自信息量越少,反之,自信息量越多。

2.熵(香浓熵):自信息量的期望H(X)=E_plog\frac{1}{p(x)}=-\sum_{x\epsilon X}p(x)\cdot logp(x)。熵越大系统越混乱,也越稳定,因为事物总是自发的变得无序。熵越大系统不确定性越大。当p(x)=1-p(x)时,熵值达到最大,不确定性达到最大,见下图。

                                                

         熵的值总是满足                                                    0\leq H(X)\leq logn

         用拉格朗日乘子法来证明右不等式:

                  已知条件                                    \sum p_i=1

                  最大化                                       H(X)=E_plog\frac{1}{p(x)}=-\sum_{x\epsilon X}p(x)\cdot logp(x)

                  构建拉格朗日函数                   L(p_1,p_2,...,p_n;\lambda )=H(X)+\lambda( \sum_i p_i-1)

                  令函数对p_i求偏导且等于0      \frac{\partial L}{p_i}=log p_i+\frac{1}{ln_2}-\lambda =0,\ i=1,2,...n

                  L在极值点出取得                     p_1=p_2=...=p_n=\frac{1}{n}

用一个例子来粗暴地理解熵:

假如一个班级有32号人,在不给定任何信息的条件下让你猜第一名是谁,用二分查找法你可能会猜:

                              —— 是1-16吗?                    ——是!

                              —— 是1-8吗?                      ——是!

                              —— 是1-4吗?                      ——是!

                              —— 是1-2吗?                      ——是!

                              —— 是1号吗?                      ——是!

此种情况你用5次就可以达到目的,因此熵可以不科学地理解为是一种代价5=log_232

但是在你知道他们班的学生学号是根据平时成绩优劣来排的且第一名跟班上其他人的成绩差距很大的前提下你可能会猜

                              —— 是1号                               ——是!

这也说明了给定条件会使得熵值变小,代价变小。

熵定义的实际上是一个随机变量的不确定性,熵最大的时候说明随机变量最不确定,换句话说也就是随机变量最随机,对其行为做预测也最难。因此从这个定义上讲最大熵原理的实质就是在已知部分知识的前提下,关于位置分布最合理的推断就是符合已知条件最不确定最随机最差的推断,任意偏倚的选择都会是给推断增加约束和假设,而这些假设和推断是虚假的,我们根本无法掌握到这些信息。

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记为DKL(p||q)DKL(p||q)。若假定q真实分布p的一个估计,则相对熵表示假设分布q的无效性或是假设分布q多出的离散程度。 

DL(p||q)=E_plog(\frac{p(x)}{q(x)})=(\sum_{x\epsilon X}p(x)logp(x)) -(\sum_{x\epsilon X}p(x)logq(x))

                                          =-E_plog\left ( \frac{1}{p(x)}\right )+-E_plog\left ( \frac{1}{q(x)}\right )

                                          =H_p(q)-H_p(p)

4.交叉熵:等于相对熵加上真实熵。我们知道

                                                                        DL(p||q)=H_p(q)-H_p(p)

                                                                        令H_p(q)=DL(p||q)+H_p(p)

则交叉熵实际上是求估计分布下的估计熵。

5.条件熵:设X=(x_1,x_2,...,x_n),Y=(y_1,y_2,...,y_n)。在X发生的条件下Y的条件熵定义为:

                                  H(Y|X)=\sum_ip(x_i)H(Y|X=x_i)=-\sum_ip(x_i)\sum_jp(y_j|x_i)logp(y_j|x_i)

 

------未完待续

 

 

 

 


[1]最大熵学习笔记(一) 预备知识.  [Online] https://blog.csdn.net/itplus/article/details/26549871

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值