自然语言处理(二)数学基础知识

这篇博客介绍了信息论的基础概念,包括熵、相对熵(KL距离)、交叉熵和困惑度。熵是衡量不确定性的重要指标,互信息则用于评估两个事件的相关性。在噪声信道模型中,信道容量是优化传输效率和准确性的关键,而词汇歧义消解问题可以借助互信息进行解决。最大熵方法在词义消歧中扮演重要角色,通过最大化熵来确定最不确定的词义解释。
摘要由CSDN通过智能技术生成

概率论基础

在这里插入图片描述

信息论基础

熵是信息论中重要的基本概念
在这里插入图片描述
主要用来衡量不确定性!!!!
熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
例证题目:
在这里插入图片描述
熵率:
在这里插入图片描述
相对熵:也叫做KL距离,用于衡量两个概率分布之间的距离,
在这里插入图片描述
两个分布越接近,则相对熵越接近0:衡量距离的利器
在这里插入图片描述
交叉熵:
在这里插入图片描述
交叉熵~
在这里插入图片描述
困惑度:
在这里插入图片描述
互信息:
在这里插入图片描述
三者之间的关系:
在这里插入图片描述
利用互信息值估计两个汉字结合的强度:
互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大

两个单个离散事件(xi, yj)之间的互信息I(xi, yj)通常称为点式互信息(point-wise mutual information) ,点式互信息可能为负值。两个随机变量(X, Y)之间的互信息I(X,Y)称为平均互信息,平均互信息不可能为负值。

噪声信道模型:目标就是优化噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定的概率依赖于输入

信道容量:其基本思想是用降低传输速率来换取高保真通讯的可能性。其定义可以根据互信息给出。
在这里插入图片描述
应用:词汇歧义消解(如何区分不同上下文中的词汇语义,就是词汇歧义消解问题,或称词义消歧)
思路:每个词表达不同的含意时其上下文(语境)往往不同,也就是说,不同的词义对应不同的上下文,因此,如果能够将多义词的上下文区别开,其词义自然就明确了。
方法:(1)基于贝叶斯方法或者(2)基于最大熵的消歧方法

基于最大熵的消歧方法:在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有多个,使熵值最大的概率分布能够最真实地反映事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变量最不确定。也就是说,在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值