统计学自然语言处理(语义消歧)

概述

本书本章描述自然语言处理中消除歧义的问题,并介绍几种重要的语义消歧算法,描述他们的资源需求和算法性能。消歧我们应该能直观的想象到就是一句话可能有几个意思。但是落实到具体细节中,我认为主要分以下几种:
1.分词的消歧,这是很常见的一个例子(南京 市 长 江大桥) 
2.多义词的具体词义
3.词性的判断
对于词性的判断可以看做一个词性标注的问题词性标注的话,我们通常考虑邻近上下文。相反,如果是词义判决的话,可能会有相隔很远的词语来决定他的词性。因此大部分的词性标注模型简单地使用当前上下文,而语义消歧模型通常使用规模广泛一些的上下文中的实词。本章将会介绍3个方法:基于标注训练集的有监督消歧,基于词典的消歧,无监督消歧。

性能上下界

性能上界:相同情况下人工标注的性能,这里一定要强调相同判断情况,实际判决中,人往往会将该系统没有利用的特性加入进来,这里有几个思考:
1.系统的性能是有上界的,我们判决时应该使用系统的视角来看待问题。不要全局来看,这样能意识到系统本身的缺陷。
2.正是因为系统有了明显的上界缺陷,才使得我们有改进的方向,比如我们知道利用前后一个词不能判断语义,那么我们考虑的方向就变成了,看一句话我们能否进行这样的判断呢?我们做的是需要不断挖掘我们本能考虑但是系统没有考虑的内容和信息,讲其模型化。

基于贝叶斯分类的语义消歧

原理是,考虑一个上下文窗口中歧义词周围词的信息。通常我们这里使

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值