统计自然语言处理基础-第八章 词汇获取(笔记)

本文探讨了词汇统计在自然语言处理中的应用,重点介绍了动词子范畴框架、附着歧义、选择倾向及语义相似性的计算方法。通过统计技术,文章详细分析了如何自动从文本中学习词汇信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

8 词汇获取

词汇获取的目的:通过考察大型文本语料库中词汇的出现模式,设计一种算法和统计技术来填补现有电子词典的不足,搭配、短语和词汇组合是其中的特殊分类,在词的搭配问题之外还有其他词汇获取的问题:选择倾向性、子范畴框架和语义范畴。

让计算机直接从在线文本中自动学习词汇信息,在一定程度上有效,但是违背了经典的乔姆斯基学派的观点:由于感官刺激贫乏,人类天生具备语言能力。

由于语言的多产性,我们感兴趣的大部分词没有被收录到电子词典中。

统计自然语言处理的一个重要任务就是在传统词典中增加数量信息。词典信息和非词典信息之间没有明显的界限。

几乎所有统计自然语言处理(包括参数估计)都和词汇属性有关,因此很多统计自然语言处理工作都需要进行词汇获取,所有的关于语言的知识都可以在词典中体现出来。

动词子范畴:动词表现的句法含义

附着歧义:例如介词短语附着于前面的名词还是动词

选择倾向:动词语义对象的语义特征,eat

词汇之间的语义相似性

8.1 评价方法

为了方便,我们使用人工的效果参数,混乱度来评价系统的各个组成部分。

在此使用精确率和召回率来评价系统,定义了一个目标集合(就是实际上是正确的)和一个选择集合(系统判定正确的),这两个变量的联合分布可以表示成一个2*2的联立矩阵:
在这里插入图片描述
在这里插入图片描述
其中tp表示为真正确,tn表示为真错误,这俩表示系统正确做出判断的情况

fp表示的错误选择情况称为假正确,假接收,错误类型2

fn表示的错误选择情况称为假错误,假拒绝,错误类型1

p为选择集(tp+fp),系统判断是正确的

n为非选择集(tn+fn),系统判断是错误的

目标集(tp+fn),实际上正确的

非目标集(tn+fp),实际上是错误的

P 精确度:系统判断选择正确项在全部选择项目中所占的比例 precision = tp / (tp+fp)

R 召回率:系统选择的目标项在全部目标项中所占的比例 recall = tp / (tp+fn)

精确度和召回率通常称反比,需要把这两个统一到一个全面的度量尺度中,F测量,是E测量的变种,F = 1 - E
在这里插入图片描述
使用精确度和错误率的优点:

  1. 准确率数值对于比较小但是我们感兴趣的数字tp,fp和fn不是特别敏感,而精确率和召回率对于这些数字非常敏感。通常可以简单的什么也不选,但是会得到一个非常高的准确率
  2. 在其他条件相等的情况下,F测量和真正确的数量成正比,而准确率只对错误的数量很敏感、F测量这种倾向和我们的直观感受是一致的,对发现事件感兴趣,甚至返回一些垃圾数据也在所不惜
  3. 遗漏的目标事件和垃圾事件对于系统性能的影响并不相同,而利用精确率和召回率可以衡量其中的差异
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值