概率论基础
信息论基础
熵是信息论中重要的基本概念
主要用来衡量不确定性!!!!
熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。
例证题目:
熵率:
相对熵:也叫做KL距离,用于衡量两个概率分布之间的距离,
两个分布越接近,则相对熵越接近0:衡量距离的利器
交叉熵:
交叉熵~
困惑度:
互信息:
三者之间的关系:
利用互信息值估计两个汉字结合的强度:
互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大
两个单个离散事件(xi, yj)之间的互信息I(xi, yj)通常称为点式互信息(point-wise mutual information) ,点式互信息可能为负值。两个随机变量(X, Y)之间的互信息I(X,Y)称为平均互信息,平均互信息不可能为负值。
噪声信道模型:目标就是优化噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定的概率依赖于输入
信道容量:其基本思想是用降低传输速率来换取高保真通讯的可能性。其定义可以根据互信息给出。
应用:词汇歧义消解(如何区分不同上下文中的词汇语义,就是词汇歧义消解问题,或称词义消歧)
思路:每个词表达不同的含意时其上下文(语境)往往不同,也就是说,不同的词义对应不同的上下文,因此,如果能够将多义词的上下文区别开,其词义自然就明确了。
方法:(1)基于贝叶斯方法或者(2)基于最大熵的消歧方法
基于最大熵的消歧方法:在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有多个,使熵值最大的概率分布能够最真实地反映事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变量最不确定。也就是说,在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。