信息论:信息熵+信息散度(交叉熵\kl距离)

信息散度(交叉熵\kl距离)

思 考 题 : 对 于 只 用 A , B , C , D 四 个 单 词 写 的 信 使 用 0 和 1 进 行 编 码 的 一 个 信 息 的 平 均 编 码 长 度 ? 思考题:对于只用A,B,C,D四个单词写的信\\ 使用0和1进行编码的一个信息的平均编码长度?\\ A,B,C,D使01
如 果 使 用 非 变 长 编 码 平 均 长 度 为 2 , 与 单 词 出 现 的 频 率 无 关 如果使用非变长编码平均长度为2,与单词出现的频率无关 使2

如 果 使 用 变 长 编 码 需 要 考 虑 “ 前 缀 码 ” 的 问 题 ( p r e f i x − p r o p e r t y ) 这 样 使 用 “ 0 ” 来 代 表 一 个 信 息 , 因 为 前 缀 的 问 题 , “ 0 ” 将 占 据 1 2 的 空 间 ( 也 就 是 不 能 再 以 0 开 头 的 其 他 长 度 的 码 了 ) 实 际 上 对 于 任 何 一 个 长 为 l 的 编 码 , 其 占 据 的 空 间 为 1 2 l 如果使用变长编码需要考虑“前缀码”的问题(prefix- property)\\ 这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据\frac{1}{2}的空间(也就是不能再以0开头的其他长度的码了)\\ 实际上对于任何一个长为l的编码,其占据的空间为\frac{1}{2^l} 使(prefixproperty)使0021(0)l2l1
f ( x ) = 1 2 l f(x)=\frac{1}{2^l} f(x)=2l1
在这里插入图片描述
使 用 短 的 码 字 能 够 减 少 平 均 信 息 长 度 , 但 是 会 更 多 地 消 耗 码 字 空 间 使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间 使
应 该 为 某 个 词 分 配 多 少 花 费 来 产 生 相 应 的 码 字 呢 应该为某个词分配多少花费来产生相应的码字呢

按 照 词 汇 使 用 的 频 繁 程 度 来 为 对 应 的 码 字 付 出 相 应 的 空 间 。 空 间 = 1 2 l 证 明 这 种 情 况 是 最 优 的 : 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 省 略 按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=\frac{1}{2^l} \\ 证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、\\ 省略 使=2l1
因为 占 据 的 空 间 为 1 2 l 占据的空间为\frac{1}{2^l} 2l1,所以长度 l = l o g 2 ( 1 空 间 ) l=log_2(\frac{1}{空间}) l=log2(1),由此得到长度的均值:
H ( p ) = ∑ x p ( x ) l o g 2 ( 1 p ( x ) ) H(p)=\sum_x p(x)log_2(\frac{1}{p(x)}) H(p)=xp(x)log2(p(x)1)


比 如 : A : 1 2 , B : 1 4 , C : 1 8 , D : 1 8 比如:A:\frac{1}{2},B:\frac{1}{4},C:\frac{1}{8},D:\frac{1}{8} A21,B:41,C:81,D:81
H ( p ) = ∑ x p ( x ) l o g 2 ( 1 p ( x ) ) = 1 2 ∗ 1 + 1 4 ∗ 2 + 1 8 ∗ 3 + 1 8 ∗ 3 H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})=\frac{1}{2}*1+\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{8}*3 H(p)=xp(x)log2(p(x)1)=211+412+813+813


思 考 题 : 罗 密 欧 与 朱 丽 叶 , 只 用 A , B , C , D 四 个 单 词 写 信 与 回 信 , 但 是 他 们 消 息 对 单 词 的 使 用 频 率 不 同 思考题:罗密欧与朱丽叶,\\只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同\\ A,B,C,D使
使 用 一 种 分 布 的 最 优 编 码 对 另 一 个 分 布 进 行 编 码 , 得 到 的 码 字 的 平 均 长 度 称 为 交 叉 熵 ( c r o s s − e n t r o p y ) H p ( q ) = ∑ x q ( x ) l o g 2 ( 1 p ( x ) ) 再 罗 密 欧 的 频 率 p 下 编 码 然 后 朱 丽 叶 以 q 频 率 使 用 使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross-entropy)\\ H_p(q)=\sum_x q(x)log_2(\frac{1}{p(x)})\\ 再罗密欧的频率p下编码然后朱丽叶以q频率使用 使(crossentropy)Hp(q)=xq(x)log2(p(x)1)pq使

性质

不满足对称性,不满足三角不等式所以叫散度
一 般 地 , H p ( q ) ≠ H q ( p ) , 即 交 叉 熵 不 具 有 对 称 性 交 叉 熵 给 了 我 们 一 种 表 达 两 个 概 率 分 布 差 异 程 度 的 方 法 。 两 个 概 率 分 布 p 与 q 的 差 异 越 大 , p 相 对 于 q 的 交 叉 熵 就 会 比 p 自 身 的 熵 大 得 更 多 。 一般地,H_p(q)\neq H_q(p),即交叉熵不具有对称性\\ 交叉熵给了我们一种表达两个概率分布差异程度的方法。\\ 两个概率分布 p 与q 的差异越大,p 相对于q 的交叉熵就会比p 自身的熵大得更多。 Hp(q)=Hq(p),pqpqp
最 有 趣 的 地 方 在 于 熵 与 交 叉 熵 之 间 的 差 。 这 个 差 代 表 着 某 个 分 布 下 的 消 息 由 于 使 用 另 一 个 分 布 下 的 编 码 , 而 额 外 使 用 的 长 度 的 平 均 值 。 如 果 这 两 个 分 布 是 相 同 的 , 那 么 这 个 差 就 是 零 。 随 着 分 布 的 差 异 变 大 , 得 到 的 差 也 会 变 大 。 最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个 分布下的编码,\\而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。 随着分布的差异变大,得到的差也会变大。 使使

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值