统计自然语言处理基础-第五章搭配（笔记）

最新推荐文章于 2024-07-14 14:54:40 发布

hardworking-AI

最新推荐文章于 2024-07-14 14:54:40 发布

阅读量564

点赞数 1

文章标签：自然语言处理人工智能机器学习 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44900754/article/details/127160223

版权

5 搭配

搭配是由两个或者两个以上的词所组成的语言表示，就是对这个词的惯用位置的描述。包括名词短语、动词短语和一些固定短语。

搭配由有限的复合构词法所描述。搭配不完全是复合构成的，它通常还有别的含义。大部分的搭配显示了比较温和的非复合构词法的结构。

搭配+术语识别（术语、技术术语、专有名词短语）

搭配的作用：自然语言生成、计算机词典编辑学、句法分析、语料库语言学的研究。

结构语言学家专注于对词组和句子属性的一般化抽象。与此相反，Firth的上下文理论强调了上下文的重要性，包括社会背景的上下文，口语和文本篇章的上下文。

英国语言学家感兴趣（Firth方法）：语言使用和语言教学中的社会背景。

识别搭配的方法：使用频率信息的搭配识别、基于含义和主词搭配词之间距离的识别，基于假设测试和互信息的识别。

5.1 频率

在文本语料库中寻找搭配的最简单的方法就是计数。

仅仅选择二元组的方法并不理想：大多数二元组是一对功能词：of the。。。

利用磁性过滤器来过滤候选短语可以大大提高结果的准确率，这个过滤器只允许可能是“短语”的模型通过。

Justeson和Katz的重要观点：一种简单的计量技术（在这里是频率过滤器）和一些语言学知识（词性标注的重要性）结合起来是大有前途的方法。

使用一个停止词表，排除那些经常使用的，词性不是名词、动词和形容词的词汇。

5.2 均值和方差

基于频率的搜索方法可以很好地解决固定短语的识别问题，但是很多搭配是两词搭配，并且彼此之间的关系非常灵活，有可能这两个词之间的距离也是不固定的。

本章仅仅考虑固定搭配，通常是二元组，而且，很容易把问题扩展应用到有一定距离的二元组上：定义了一个搭配窗口，把窗口中的每一个词对都作为候选的搭配对，然后在这个更大的集合上，计算他们的概率。

问题：二元组短语在句子中的，每个词之间的距离是不确定的。

本章基于均值和方差的特殊模式：两个词之间的距离是可以变化的，计算语料库中两个词之间的偏移量（有符号的距离）的均值和方差。均值就是简单地平均偏移量（选定一个词为中心词，另一个词里这个词的距离就是偏移量），偏移量有可能是一个负值。
在这里插入图片描述

样本偏差用来评价两个词之间的偏移量是怎样随机变化的。

均值和偏差特性化了语料库中两个词之间距离的分布，可以用这个信息来发现搭配，通过寻找带有低偏差的词对。一个低的

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计自然语言处理基础-第五章搭配（笔记）

统计自然语言处理基础-搭配-笔记
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。