深度学习导论及案例分析》一2.3信息论的基本概念

最新推荐文章于 2024-07-26 13:24:37 发布

weixin_34268753

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量117

点赞数

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/89349

版权

#### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章，第2.3节，作者李玉鑑张婷，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3信息论的基本概念

一般认为，信息论开始于1948年香农（Claude Elwood Shannon）发表的论文《通信的数学原理》［96］。熵（entropy）是信息论的一个基本概念。

离散随机变量X的熵定义为
H（X）=∑x∈val（X）P（x）logP（x）（2.45）
两个离散随机变量X和Y的联合熵（joint entropy）定义为
H（X，Y）=∑x∈val（X）∑y∈val（Y）P（x，y）logP（x，y）（2.46）
在给定随机变量X的情况下，随机变量Y的条件熵（conditional entropy）定义为
H（YX）=∑x∈val（X）P（x）H（YX=x）=∑x∈val（X）P（x）-∑y∈val（Y）P（yx）logP（yx）

=-∑x∈val（X）∑y∈val（Y）P（x，y）logP（x，y）（2.47）
关于联合熵和条件熵，有熵的链式法则（chain rule for entropy），即
H（X，Y）=H（X）+H（YX）（2.48）

H（X1，X2，…，Xn）=H（X1）+H（X2X1）+…+H（XnX1，…，Xn-1）（2.49）
两个随机变量X和Y的互信息定义为
I（X，Y）=H（X）-H（YX）=H（X）+H（Y）-H（X，Y）

=∑x，yP（x，y）logP（x，y）P（x）P（y）≥0（2.50）
两个概率分布P（X）和Q（X）的KL散度（KullbackLeibler divergence），又称相对熵，定义为
KL（PQ）=∑x∈val（X）P（x）logP（x）Q（x）=EPP（x）Q（x）（2.51）
显然，当两个概率分布完全相同，即P=Q时，其相对熵为0。当两个概率分布的差别增加时，其相对熵将增大。此外，联合相对熵和条件相对熵也存在所谓的链式法则：
KL（P（X，Y）Q（X，Y））=KL（P（X）Q（X））+KL（P（YX）Q（YX））（2.52）
如果用模型分布Q（X）来近似一个未知概率分布P（X），那么还可以用交叉熵（cross entropy）来表达模型分布对未知分布的逼近程度：
CE（P，Q）=H（X）+KL（PQ）=-∑x∈val（X）P（x）logQ（x）=EPlog1Q（x）（2.53）

weixin_34268753

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习导论及案例分析》一2.3信息论的基本概念

#### 本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章，第2.3节，作者李玉鑑张婷，更多章节内容可以访问云栖社区“华章计算机”公众号查看。2.3信息论的基本概念一般认为，信息论开始于1948年香农（Claude Elwood Shannon）发表的论文《通信的数学原理》［96］。熵（entropy）是信息论的一个基本概念。离散...
复制链接

扫一扫