熵学习笔记

最新推荐文章于 2022-01-03 21:06:54 发布

不爱学习未完待续

最新推荐文章于 2022-01-03 21:06:54 发布

阅读量602

点赞数 1

分类专栏：算法学习文章标签：熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40196271/article/details/88123608

版权

算法学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

$H(x)=\sum p(x)log_{_{a}}p(x)$ ，由 $Y^{n}\geq X$ 推出

1.定义熵是随机变量不确定性的度量，不确定性越大，熵值越大，若随机变量退化成定值，熵为0。均匀分布是“最不确定”的分布

熵是定义了一个函数到一个值的映射。定义域是函数集，值域是值。有点泛函。

$H(x)=\sum p(x)ln(p(x))$ ，举个例子，如果是两点分布的时候，如果某个点概率为0或为1，则为确定分布，熵为0，均匀分布的时候熵为最大。

2.联合熵

联合分布的熵， $H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)$

3.条件熵

Y发生的前提下，X发生的熵 , $H(X,Y)-H(Y)=-\sum p(x,y)logp(x|y)=H(X|Y)$

4.相对熵（又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等）

p(x),q(x)是X中取值的两个概率分布，则p对q的相对熵是

$D(p||q)=-\sum_{a}p(x)log\frac{p(x)}{q(x)}=-E_{p(x)}log\frac{p(x)}{q(x)}$

5.互信息

定义为,X,Y的联合分布和独立分布乘积的相对熵

$I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

H(X)-I(X,Y)=H(X|Y) ，而 H(X|Y)= H(X,Y)-H(Y) ,得出 I(X,Y)=H(X)+H(Y)-H(X,Y)

再根据对偶 H(Y|X) = H(X,Y)-H(X)=H(Y)-I(X,Y)

$H(X|Y)\leq H(X),H(Y|X)\leq H(Y)$ （给定一定条件后，就变得更确定，熵会更小）

6.最大熵模型的条件

承认已知，没有偏见。概率平均分布等价于熵最大。 $maxH(X|Y)= \sum p(x,y)logp(x|y)$ 。给定均值和方差的话，则正太分布的熵最大。

7.特征和样本

（x,y）。y:这个特征中需要确定的信息；x:这个特征汇总的上下文信息

样本：关于某个特征的样本，特征所描述的语法现象在标准集合里的分布（xi,yi）,xi是yi的上下文，yi是xi的实例。

特征函数：对于一个特征（x0,y0），则这个点值为1，其他值为0；

最大熵（条件熵）模型在NLP中的完整提法：NLP（自然语言处理）模型： $p^{*}=argmaxH(Y|X)=-\sum p(x,y)logp(y|x)=\sum p(y|x)p(x)longp(y|x)$

最优解形式Exponential:拉格朗日求偏导为0

Maxent模型是对数线性模型，因为包含指数函数，几乎不可能有解析解。能不能建立一种逼近，构造函数，求其最大\最小值。

极大似然估计MLE：一般形式 $L_{p}=log(\prod p(x)^{p(x)})$

MLE模型与条件熵具有相同的形式。

8.

熵：不确定度；最大熵模型：对不确定度的无偏分配；似然：与知识的吻合程度；最大似然估计：对知识的无偏理解；知识：不确定度的补集。

9.IIS的思想

不爱学习未完待续

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
熵学习笔记

，由推出1.定义熵是随机变量不确定性的度量，不确定性越大，熵值越大，若随机变量退化成定值，熵为0。均匀分布是“最不确定”的分布熵是定义了一个函数到一个值的映射。定义域是函数集，值域是值。有点泛函。，举个例子，如果是两点分布的时候，如果某个点概率为0或为1，则为确定分布，熵为0，均匀分布的时候熵为最大。2.联合熵联合分布的熵，3.条件熵Y发生的前提下，X发生的熵 ,...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。