自然语言处理总复习(六)—— 词汇获取

一、介绍

(一)相关概念和意义

1. 总体目标

设计一种算法和统计技术,通过对大规模文本语料库的挖掘,获取其中词语出现的各类形式,来填补现有机读词典的不足。
简而言之,词汇获取就是在传统词典中增加数量信息

2. 问题和挑战

  • 选择倾向性——新词的搭配结构倾向于哪一类;
  • 子范畴框架——新词的受体是什么;
  • 语义范畴——词典中没有的新词的语义范畴是什么。

3. 四个部分

词汇获取分为四个部分:1、动词子范畴——动词表现的句法含义;2、附着歧义——解决附着歧义问题;3、选择倾向——动词语义对象的语义特征;4、词汇之间的语义相似性。

(二)词汇获取的评价方法

1. 评价方法介绍

评价系统的评价指标:

  • 精准率 = tp / (tp + fp) = tp / selected
  • 召回率 = tp / (tp + fn) = tp / targeted

positive: 成功返回;negative:没有返回
true:处理结果正确; false:处理结果错误

目标集:tp + fn
非目标集:tn + fp

在这里插入图片描述
在这里插入图片描述

2. 该评价方法的优点

问题:为什么不用系统准确率来衡量系统性能?
a c c = t p + t n t o t a l = 正 确 判 断 的 结 果 所 有 结 果 = t p + t n t p + t n + f p + f n acc = \dfrac{tp + tn}{total} = \dfrac{正确判断的结果}{所有结果}\\ = \dfrac{tp + tn}{tp+tn+fp+fn} acc=totaltp+tn==tp+tn+fp+fntp+tn
因为在大部分的框架中,tn的值都非常大,因此会使其他的数据显得微不足道。即采用准确率和错误率来评价时,准确率一般接近为0,错误率接近为1。
而采用精确率和召回率评价系统时,其优点有:

1、精确率对于值比较小的数字tp、fp、fn非常敏感;
2、在其他条件相等的情况下,F测量和真正确的数量成正比,而准确率只对错误的数量很敏感;
3、利用精确率和召回率可以比较清楚地衡量出遗漏的目标事件和所谓垃圾事件对于系统性能的影响。

2. 其他评价方法

评价方法是漏识率,它表示了被错误选择的非目标项在非目标集中所占的百分比,计算公式为

f a l l o u t = f p / ( f p + t n ) fallout = fp/( fp + tn ) falloutfp/(fp+tn)

当某个系统中只产生很少的假正确情况时,漏识率可以用来评价这个系统构建的困难程度。

(二)词汇获取的四个部分

1. 动词子范畴

(1)定义
  • 动词可以被划分为不同的句法范畴,也就是说,动词可以用不同的句法形式来表示自己的语义对象。
  • 我们把根据动词所允许搭配的补足成分的类型(名词短语,介词短语等)对动词进行分类称之为子范畴。 我们总是对于某个
  • 特定的补足语来谈一个动词的子范畴。
(2)相关问题背景及研究现状

动词的子范畴框架对于句法分析非常有用,但大部分词典都没有包含子范畴框架的信息,即使在很少几个包含子范畴框架信息的词典中,大部分动词的信息也是不完全的。实际上,超过一半的句法分析错误是由于缺少子范畴框架引起的。

(3)算法*
1)暗示

在这里插入图片描述

2)假设检验

在这里插入图片描述

2. 附着歧义

(1)概念

在这里插入图片描述

(2)算法

在这里插入图片描述

在这里插入图片描述

(3)应用

在这里插入图片描述

3. 选择倾向

(1)定义与应用

在这里插入图片描述

(2)Resnik模型

在这里插入图片描述

1)相关概念

在这里插入图片描述

在这里插入图片描述

2)举例

在这里插入图片描述

3)模型参数估计

在这里插入图片描述

4)模型应用举例

在这里插入图片描述

4. 语义相似性

语义相似性虽然没有一个直观和清晰的概念,但是语义相似性可以认为是近义词的扩展,是指来自于相同语义领域和主题的两个词。

词汇获取的最高目标是词义的获取。如果我们能够自动获取词义,统计自然语言处理中的许多任务的结果将会有很大的改进。

语义属性获取工作主要集中在语义相似性上。语义相似的词语一般可以认为存在某种相似的语言行为,我们经常使用语义相似性对文本进行一般化处理。

语义相似性不仅可以获取词汇语义属性,还可以在信息检索中用来做查询扩展。此外,还可以用来对词语进行分类,例如KNN分类。

在这里插入图片描述
在这里插入图片描述

(1)语义相似性的度量方法 —— 向量空间度量方法
1)核心思想

计算语义相似性的两个词转换为多维空间中的向量形式。

2)一些矩阵定义
  1. 文本-词汇矩阵
  2. 词汇-词汇矩阵
  3. 中心词-修饰词矩阵
3)相似性度量的定义

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4)总结

在这里插入图片描述

(1)语义相似性的度量方法 —— 概率度量方法

在这里插入图片描述
在这里插入图片描述

二、词汇获取的意义

  • 人工构建词汇资源耗费大量的人力、物力,而且人对于超大量信息的收集并不是很擅长。
  • 当前许多词汇资源都是面向人类的应用设计的,其中缺失大量进行机器自动处理时需要的信息,毕竟人是有很多先验知识的,而机器没有。而且目前词典资源大多缺乏词条的上下文信息。
  • 还有一个最重要的原因就是现代语言的多产性,现代语言变化很快,每年都有大量的新词涌现,即时现有的词也会有一些新的意思,新的用法的出现,因此词汇的自动获取是至关重要的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Victayria

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值