信息散度(交叉熵\kl距离)
思
考
题
:
对
于
只
用
A
,
B
,
C
,
D
四
个
单
词
写
的
信
使
用
0
和
1
进
行
编
码
的
一
个
信
息
的
平
均
编
码
长
度
?
思考题:对于只用A,B,C,D四个单词写的信\\ 使用0和1进行编码的一个信息的平均编码长度?\\
思考题:对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度?
如
果
使
用
非
变
长
编
码
平
均
长
度
为
2
,
与
单
词
出
现
的
频
率
无
关
如果使用非变长编码平均长度为2,与单词出现的频率无关
如果使用非变长编码平均长度为2,与单词出现的频率无关
如
果
使
用
变
长
编
码
需
要
考
虑
“
前
缀
码
”
的
问
题
(
p
r
e
f
i
x
−
p
r
o
p
e
r
t
y
)
这
样
使
用
“
0
”
来
代
表
一
个
信
息
,
因
为
前
缀
的
问
题
,
“
0
”
将
占
据
1
2
的
空
间
(
也
就
是
不
能
再
以
0
开
头
的
其
他
长
度
的
码
了
)
实
际
上
对
于
任
何
一
个
长
为
l
的
编
码
,
其
占
据
的
空
间
为
1
2
l
如果使用变长编码需要考虑“前缀码”的问题(prefix- property)\\ 这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据\frac{1}{2}的空间(也就是不能再以0开头的其他长度的码了)\\ 实际上对于任何一个长为l的编码,其占据的空间为\frac{1}{2^l}
如果使用变长编码需要考虑“前缀码”的问题(prefix−property)这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据21的空间(也就是不能再以0开头的其他长度的码了)实际上对于任何一个长为l的编码,其占据的空间为2l1
f
(
x
)
=
1
2
l
f(x)=\frac{1}{2^l}
f(x)=2l1
使
用
短
的
码
字
能
够
减
少
平
均
信
息
长
度
,
但
是
会
更
多
地
消
耗
码
字
空
间
使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间
使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间
应
该
为
某
个
词
分
配
多
少
花
费
来
产
生
相
应
的
码
字
呢
应该为某个词分配多少花费来产生相应的码字呢
应该为某个词分配多少花费来产生相应的码字呢
按
照
词
汇
使
用
的
频
繁
程
度
来
为
对
应
的
码
字
付
出
相
应
的
空
间
。
空
间
=
1
2
l
证
明
这
种
情
况
是
最
优
的
:
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
省
略
按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=\frac{1}{2^l} \\ 证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、\\ 省略
按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=2l1证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、省略
因为
占
据
的
空
间
为
1
2
l
占据的空间为\frac{1}{2^l}
占据的空间为2l1,所以长度
l
=
l
o
g
2
(
1
空
间
)
l=log_2(\frac{1}{空间})
l=log2(空间1),由此得到长度的均值:
H
(
p
)
=
∑
x
p
(
x
)
l
o
g
2
(
1
p
(
x
)
)
H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})
H(p)=x∑p(x)log2(p(x)1)
比
如
:
A
:
1
2
,
B
:
1
4
,
C
:
1
8
,
D
:
1
8
比如:A:\frac{1}{2},B:\frac{1}{4},C:\frac{1}{8},D:\frac{1}{8}
比如:A:21,B:41,C:81,D:81
H
(
p
)
=
∑
x
p
(
x
)
l
o
g
2
(
1
p
(
x
)
)
=
1
2
∗
1
+
1
4
∗
2
+
1
8
∗
3
+
1
8
∗
3
H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})=\frac{1}{2}*1+\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{8}*3
H(p)=x∑p(x)log2(p(x)1)=21∗1+41∗2+81∗3+81∗3
思
考
题
:
罗
密
欧
与
朱
丽
叶
,
只
用
A
,
B
,
C
,
D
四
个
单
词
写
信
与
回
信
,
但
是
他
们
消
息
对
单
词
的
使
用
频
率
不
同
思考题:罗密欧与朱丽叶,\\只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同\\
思考题:罗密欧与朱丽叶,只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同
使
用
一
种
分
布
的
最
优
编
码
对
另
一
个
分
布
进
行
编
码
,
得
到
的
码
字
的
平
均
长
度
称
为
交
叉
熵
(
c
r
o
s
s
−
e
n
t
r
o
p
y
)
H
p
(
q
)
=
∑
x
q
(
x
)
l
o
g
2
(
1
p
(
x
)
)
再
罗
密
欧
的
频
率
p
下
编
码
然
后
朱
丽
叶
以
q
频
率
使
用
使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross-entropy)\\ H_p(q)=\sum_x q(x)log_2(\frac{1}{p(x)})\\ 再罗密欧的频率p下编码然后朱丽叶以q频率使用
使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross−entropy)Hp(q)=x∑q(x)log2(p(x)1)再罗密欧的频率p下编码然后朱丽叶以q频率使用
性质
不满足对称性,不满足三角不等式所以叫散度
一
般
地
,
H
p
(
q
)
≠
H
q
(
p
)
,
即
交
叉
熵
不
具
有
对
称
性
交
叉
熵
给
了
我
们
一
种
表
达
两
个
概
率
分
布
差
异
程
度
的
方
法
。
两
个
概
率
分
布
p
与
q
的
差
异
越
大
,
p
相
对
于
q
的
交
叉
熵
就
会
比
p
自
身
的
熵
大
得
更
多
。
一般地,H_p(q)\neq H_q(p),即交叉熵不具有对称性\\ 交叉熵给了我们一种表达两个概率分布差异程度的方法。\\ 两个概率分布 p 与q 的差异越大,p 相对于q 的交叉熵就会比p 自身的熵大得更多。
一般地,Hp(q)=Hq(p),即交叉熵不具有对称性交叉熵给了我们一种表达两个概率分布差异程度的方法。两个概率分布p与q的差异越大,p相对于q的交叉熵就会比p自身的熵大得更多。
最
有
趣
的
地
方
在
于
熵
与
交
叉
熵
之
间
的
差
。
这
个
差
代
表
着
某
个
分
布
下
的
消
息
由
于
使
用
另
一
个
分
布
下
的
编
码
,
而
额
外
使
用
的
长
度
的
平
均
值
。
如
果
这
两
个
分
布
是
相
同
的
,
那
么
这
个
差
就
是
零
。
随
着
分
布
的
差
异
变
大
,
得
到
的
差
也
会
变
大
。
最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个 分布下的编码,\\而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。 随着分布的差异变大,得到的差也会变大。
最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个分布下的编码,而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。随着分布的差异变大,得到的差也会变大。