自然语言处理总复习(五)—— 词义消歧

一、相关概念与预备知识

(一)词义消歧

1. 定义

(Word sense disambiguation, WSD)
确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。

2. 词义消歧需要解决的三个问题

在这里插入图片描述

3. 应用

wsd的应用场景

(二)预备知识

1. 有监督学习和无监督学习

有监督学习和无监督学习

2. 伪词

伪词

3. 算法效能评估 —— 上界和下界

上界和下界

二、有监督的消歧方法

(一)基于贝叶斯分类的词义消歧

1. 概念介绍及准备工作

基于贝叶斯分类的wsd概念和准备

2. 计算公式推导

原始公式推导
为了防止取值在 (0, 1) 范围内的数连乘趋近于0,加入log函数进行平滑:
改进后公式

3. 词义排歧算法(Disambiguation)

for all sense s_i of w do:
	score(s_i) = log(P(s_i))
	for all words w_j in the context of w do:
		score(s_i) += log(P(w_j | s_i))
	end
end
choose s' = arg(s_i) max score(s_i)

c h o o s e s ′ = arg ⁡ max ⁡ s i s c o r e ( s i ) choose \quad s' =\mathop{\arg\max}\limits_{s_i} score(s_i) chooses=siargmaxscore(si)
计算举例
disambiguation举例

(二)基于互信息的词义消歧

1. 核心思想

核心思想

2. flip-flop算法

(1)算法描述

算法描述

(2)算法应用举例

算法应用举例
在这里插入图片描述

(一&二)贝叶斯方法和互信息方法的比较

比较

(三)基于词典的词义消歧

1. 核心原理

上下文词汇的语义范畴 <—互相决定影响—> 上下文的语义范畴
词典中词条本身的定义就可以作为判断其语义的一个很好的依据条件

2. 算法描述

算法描述

3. 算法伪代码

算法伪代码

4. 算法示例

算法示例

5. 算法总结

  • 用词典资源进行词义排歧,是利用词典中对多义词的各个义项的描写,而这些描写是在语言学家观察了多义词的不同使用情况后概括归纳,抽象总结的结果。只不过跟实际语料不同的是,它是以一种概括的方式在描写词义,而语料库是以具体可感知的大量重复的实例本身在描写词义。
  • 由于词典释义的概括性,这种方法应用于实际语料中多义词的排歧,效果不理想。

(四)基于义类词典的消歧

1. 相关概念

语义范畴信息概念
原理:上下文中词汇的语义范畴大体上确定了此上下文的语义范畴,且上下文的语义范畴可以反过来确定词汇的哪一个语义被使用

比如英语词“crane”有两个意思,一是指“吊车”,一是指“鹤”。前者属于“工具/机械”这个义类;后者属于“动物”这个义类。如果能够确定“crane”出现在具体语境中时属于哪个义类,实际上也就知道了“crane”的义项。

2. 方法过程步骤

在这里插入图片描述
在这里插入图片描述

(五)基于第二语料库翻译的消歧

1. 相关概念

  • 使用双语词典中的对应词
  • 第一语言:需要消歧的语言
  • 第二语言:双语词典中的目标语言

2. 举例

举例

三、有监督的消歧方法总结

有监督的消歧方法总结

四、无监督的消歧方法

(一)EM算法(Expectation-Maximization)

1. 概念

  • EM算法是一个由交替进行的“期望(E过程)”和“极大似然估计(M过程)”两部分组成的迭代过程:
    • 对于给定的不完全数据和当前的参数值,“E过程”从条件期望中相应地构造完全数据的似然函数值,“M过程”则利用参数的充分统计量,重新估计概率模型的参数,使得训练数据的对数似然最大。
  • EM算法的每一次迭代过程必定单调地增加训练数据的对数似然值,于是迭代过程渐进地收敛于一个局部最优值

2. 算法流程

在这里插入图片描述
在这里插入图片描述

  • 5
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Victayria

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值