信息论：信息熵+信息散度(交叉熵\kl距离)

FakeOccupational

已于 2022-02-20 09:57:18 修改

阅读量173

点赞数

分类专栏：深度学习文章标签：概率论机器学习

于 2021-07-10 21:06:30 首次发布

本文链接：https://blog.csdn.net/ResumeProject/article/details/118639210

版权

深度学习专栏收录该内容

162 篇文章 17 订阅

订阅专栏

信息散度(交叉熵\kl距离)

$思考题：对于只用A,B,C,D四个单词写的信\\ 使用0和1进行编码的一个信息的平均编码长度？\\$
$如果使用非变长编码平均长度为 2 ，与单词出现的频率无关$

$property)\\ 这样使用“0”来代表一个信息，因为前缀的问题，“0”将占据\frac{1}{2}的空间(也就是不能再以0开头的其他长度的码了)\\ 实际上对于任何一个长为l的编码，其占据的空间为\frac{1}{2^l}$
$f(x)=\frac{1}{2^l}$
在这里插入图片描述
$使用短的码字能够减少平均信息长度，但是会更多地消耗码字空间$
$应该为某个词分配多少花费来产生相应的码字呢$

$按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=\frac{1}{2^l} \\ 证明这种情况是最优的：、、、、、、、、、、、、、、、、、、、、、、、、\\ 省略$
因为 $占据的空间为\frac{1}{2^l}$ ,所以长度 $l=log_2(\frac{1}{空间})$ ，由此得到长度的均值：
$H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})$

$比如：A：\frac{1}{2},B:\frac{1}{4},C:\frac{1}{8},D:\frac{1}{8}$
$H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})=\frac{1}{2}*1+\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{8}*3$

$思考题：罗密欧与朱丽叶，\\只用A,B,C,D四个单词写信与回信，但是他们消息对单词的使用频率不同\\$
$使用一种分布的最优编码对另一个分布进行编码，得到的码字的平均长度称为交叉熵(cross-entropy)\\ H_p(q)=\sum_x q(x)log_2(\frac{1}{p(x)})\\ 再罗密欧的频率p下编码然后朱丽叶以q频率使用$

性质

不满足对称性，不满足三角不等式所以叫散度
$一般地，H_p(q)\neq H_q(p),即交叉熵不具有对称性\\ 交叉熵给了我们一种表达两个概率分布差异程度的方法。\\ 两个概率分布 p 与q 的差异越大，p 相对于q 的交叉熵就会比p 自身的熵大得更多。$
$分布下的编码，\\而额外使用的长度的平均值。如果这两个分布是相同的，那么这个差就是零。随着分布的差异变大，得到的差也会变大。$

FakeOccupational

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息论：信息熵+信息散度(交叉熵\kl距离)

思考题：对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度？思考题：对于只用A,B,C,D四个单词写的信\\使用0和1进行编码的一个信息的平均编码长度？\\思考题：对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度？如果使用非变长编码平均长度为2，与单词出现的频率无关如果使用非变长编码平均长度为2，与单词出现的频率无关如果使用非变长编码平均长度为2，与单词出现的频率无关使用变长编码需要考虑“前缀码”的问题(prefix−property)这样使
复制链接

扫一扫

专栏目录