信息论相关知识
互信息
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
设两个随机变量(X,Y)的联合分布为p(x,y),边缘分布分别为 p(x),p(y),互信息I(X,Y)是联合分布p(x,y)与边缘分布p(x)p(y)的相对熵, 即
率失真
率失真理论是用信息论的基本观点和方法研究数据压缩问题的理论,又称限失真信源编码理论。率失真理论的基本问题可以归结如下:对于一个给定的信源分布与失真度量,在特定的码率下能达到的最小期望失真;或者为了满足一定的失真限制,最小描述码率可以是多少。
信息瓶颈
信息瓶颈(英语:information bottleneck)是信息论中的一种方法,由纳夫塔利·泰斯比、费尔南多·佩雷拉(Fernando C. Pereira)与威廉·比亚莱克于1999年提出 。
对于一随机变量,假设已知其与观察变量 Y之间的联合概率分布p(X,Y)。此时,当需要概括(聚类){\displaystyle X}时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。