统计自然语言处理基础-第五章 搭配(笔记)

5 搭配

搭配是由两个或者两个以上的词所组成的语言表示,就是对这个词的惯用位置的描述。包括名词短语、动词短语和一些固定短语。

搭配由有限的复合构词法所描述。搭配不完全是复合构成的,它通常还有别的含义。大部分的搭配显示了比较温和的非复合构词法的结构。

搭配+术语识别(术语、技术术语、专有名词短语)

搭配的作用:自然语言生成、计算机词典编辑学、句法分析、语料库语言学的研究。

结构语言学家专注于对词组和句子属性的一般化抽象。与此相反,Firth的上下文理论强调了上下文的重要性,包括社会背景的上下文,口语和文本篇章的上下文。

英国语言学家 感兴趣(Firth方法):语言使用和语言教学中的社会背景。

识别搭配的方法:使用频率信息的搭配识别、基于含义和主词搭配词之间距离的识别,基于假设测试和互信息的识别。

5.1 频率

在文本语料库中寻找搭配的最简单的方法就是计数。

仅仅选择二元组的方法并不理想:大多数二元组是一对功能词:of the。。。

利用磁性过滤器来过滤候选短语可以大大提高结果的准确率,这个过滤器只允许可能是“短语”的模型通过。

Justeson和Katz的重要观点:一种简单的计量技术(在这里是频率过滤器)和一些语言学知识(词性标注的重要性)结合起来是大有前途的方法。

使用一个停止词表,排除那些经常使用的,词性不是名词、动词和形容词的词汇。

5.2 均值和方差

基于频率的搜索方法可以很好地解决固定短语的识别问题,但是很多搭配是两词搭配,并且彼此之间的关系非常灵活,有可能这两个词之间的距离也是不固定的。

本章仅仅考虑固定搭配,通常是二元组,而且,很容易把问题扩展应用到有一定距离的二元组上:定义了一个搭配窗口,把窗口中的每一个词对都作为候选的搭配对,然后在这个更大的集合上,计算他们的概率。

问题:二元组短语在句子中的,每个词之间的距离是不确定的。

本章基于均值和方差的特殊模式:两个词之间的距离是可以变化的,计算语料库中两个词之间的偏移量(有符号的距离)的均值和方差。均值就是简单地平均偏移量(选定一个词为中心词,另一个词里这个词的距离就是偏移量),偏移量有可能是一个负值。
在这里插入图片描述

样本偏差用来评价两个词之间的偏移量是怎样随机变化的。

均值和偏差特性化了语料库中两个词之间距离的分布,可以用这个信息来发现搭配,通过寻找带有低偏差的词对。一个低的

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值