5 搭配
搭配是由两个或者两个以上的词所组成的语言表示,就是对这个词的惯用位置的描述。包括名词短语、动词短语和一些固定短语。
搭配由有限的复合构词法所描述。搭配不完全是复合构成的,它通常还有别的含义。大部分的搭配显示了比较温和的非复合构词法的结构。
搭配+术语识别(术语、技术术语、专有名词短语)
搭配的作用:自然语言生成、计算机词典编辑学、句法分析、语料库语言学的研究。
结构语言学家专注于对词组和句子属性的一般化抽象。与此相反,Firth的上下文理论强调了上下文的重要性,包括社会背景的上下文,口语和文本篇章的上下文。
英国语言学家 感兴趣(Firth方法):语言使用和语言教学中的社会背景。
识别搭配的方法:使用频率信息的搭配识别、基于含义和主词搭配词之间距离的识别,基于假设测试和互信息的识别。
5.1 频率
在文本语料库中寻找搭配的最简单的方法就是计数。
仅仅选择二元组的方法并不理想:大多数二元组是一对功能词:of the。。。
利用磁性过滤器来过滤候选短语可以大大提高结果的准确率,这个过滤器只允许可能是“短语”的模型通过。
Justeson和Katz的重要观点:一种简单的计量技术(在这里是频率过滤器)和一些语言学知识(词性标注的重要性)结合起来是大有前途的方法。
使用一个停止词表,排除那些经常使用的,词性不是名词、动词和形容词的词汇。
5.2 均值和方差
基于频率的搜索方法可以很好地解决固定短语的识别问题,但是很多搭配是两词搭配,并且彼此之间的关系非常灵活,有可能这两个词之间的距离也是不固定的。
本章仅仅考虑固定搭配,通常是二元组,而且,很容易把问题扩展应用到有一定距离的二元组上:定义了一个搭配窗口,把窗口中的每一个词对都作为候选的搭配对,然后在这个更大的集合上,计算他们的概率。
问题:二元组短语在句子中的,每个词之间的距离是不确定的。
本章基于均值和方差的特殊模式:两个词之间的距离是可以变化的,计算语料库中两个词之间的偏移量(有符号的距离)的均值和方差。均值就是简单地平均偏移量(选定一个词为中心词,另一个词里这个词的距离就是偏移量),偏移量有可能是一个负值。
样本偏差用来评价两个词之间的偏移量是怎样随机变化的。
均值和偏差特性化了语料库中两个词之间距离的分布,可以用这个信息来发现搭配,通过寻找带有低偏差的词对。一个低的