统计自然语言处理基础-第八章词汇获取（笔记）

hardworking-AI

已于 2022-10-10 09:23:43 修改

阅读量477

点赞数

文章标签：自然语言处理人工智能机器学习 nlp

于 2022-10-09 21:11:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44900754/article/details/127234110

版权

本文探讨了词汇统计在自然语言处理中的应用，重点介绍了动词子范畴框架、附着歧义、选择倾向及语义相似性的计算方法。通过统计技术，文章详细分析了如何自动从文本中学习词汇信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

8 词汇获取

词汇获取的目的：通过考察大型文本语料库中词汇的出现模式，设计一种算法和统计技术来填补现有电子词典的不足，搭配、短语和词汇组合是其中的特殊分类，在词的搭配问题之外还有其他词汇获取的问题：选择倾向性、子范畴框架和语义范畴。

让计算机直接从在线文本中自动学习词汇信息，在一定程度上有效，但是违背了经典的乔姆斯基学派的观点：由于感官刺激贫乏，人类天生具备语言能力。

由于语言的多产性，我们感兴趣的大部分词没有被收录到电子词典中。

统计自然语言处理的一个重要任务就是在传统词典中增加数量信息。词典信息和非词典信息之间没有明显的界限。

几乎所有统计自然语言处理（包括参数估计）都和词汇属性有关，因此很多统计自然语言处理工作都需要进行词汇获取，所有的关于语言的知识都可以在词典中体现出来。

动词子范畴：动词表现的句法含义

附着歧义：例如介词短语附着于前面的名词还是动词

选择倾向：动词语义对象的语义特征，eat

词汇之间的语义相似性

8.1 评价方法

为了方便，我们使用人工的效果参数，混乱度来评价系统的各个组成部分。

在此使用精确率和召回率来评价系统，定义了一个目标集合（就是实际上是正确的）和一个选择集合（系统判定正确的），这两个变量的联合分布可以表示成一个2*2的联立矩阵：
在这里插入图片描述

其中tp表示为真正确，tn表示为真错误，这俩表示系统正确做出判断的情况

fp表示的错误选择情况称为假正确，假接收，错误类型2

fn表示的错误选择情况称为假错误，假拒绝，错误类型1

p为选择集（tp+fp），系统判断是正确的

n为非选择集（tn+fn），系统判断是错误的

目标集（tp+fn），实际上正确的

非目标集（tn+fp），实际上是错误的

P 精确度：系统判断选择正确项在全部选择项目中所占的比例 precision = tp / (tp+fp)

R 召回率：系统选择的目标项在全部目标项中所占的比例 recall = tp / (tp+fn)

精确度和召回率通常称反比，需要把这两个统一到一个全面的度量尺度中，F测量，是E测量的变种，F = 1 - E
在这里插入图片描述
使用精确度和错误率的优点：

准确率数值对于比较小但是我们感兴趣的数字tp，fp和fn不是特别敏感，而精确率和召回率对于这些数字非常敏感。通常可以简单的什么也不选，但是会得到一个非常高的准确率
在其他条件相等的情况下，F测量和真正确的数量成正比，而准确率只对错误的数量很敏感、F测量这种倾向和我们的直观感受是一致的，对发现事件感兴趣，甚至返回一些垃圾数据也在所不惜
遗漏的目标事件和垃圾事件对于系统性能的影响并不相同，而利用精确率和召回率可以衡量其中的差异

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。