自然语言处理笔记week7

week7课程内容

Lexical Semantics (词汇语义学)

Words (词), lemmas (词目), stems (词干):
– Celebrations, celebration, celebrate

1. Word sense (词义)

这里的word指的是lemma。
word sense指的是:一个lemma在某一个方面的含义。
由此可知:一个word可以有多个sense。
比如:Bank: financial institution; sloping mound

带来的问题:The patron orders a meal.
就这句话而言,我们有2 senses of patron, 4 of orders, 2 of meal = 16 senses of sentence
这就导致了句子含义的歧义。

sence之间的一些关系:
在这里插入图片描述

2. WordNet

定义: WordNet is a database of facts(Meanings and the relations among them) about words.
WordNet与其他标准词典最显著的不同在于:它将词汇分成五个大类:名词、动词、形容词、副词和虚词.
下面是单词 bass 在 WordNet 里的描述:
在这里插入图片描述

在WordNet中,Lexical entries(词条)是通过semantic relations(语义关系)相互连接的,这种组织方式构成了WordNet的核心特点。在WordNet里,最重要的语义关系是:同义词组
在这里插入图片描述

WordNet里的上位词层次结构:
在这里插入图片描述

可以看到,从具体的贝斯手,往下到音乐家,再到人类,再到实体,层层抽象。
在这里插入图片描述

Supersenses:单词的最高层的上位词。可以用做一个粗粒度的词义表示。
在这里插入图片描述

从数据库角度看WordNet,就是列为单词,行为同义词组。

3. Word Similarity

(1)Synonymy(同义): a binary relation。Two words are either synonymous or not。
(2)Similarity(相似度):更宽松一点。Two words are more similar if they share more features of meaning
在这里插入图片描述

用路径长度度量相似度:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

但是这样会有一些问题,比如nickel和money、standard距离一样,但明显nickel应该和money相似度更高。因为高层更抽象,所以高层的边不应该跟下层的边的代价一样。

下面先介绍P(c ),然后引入Information content(信息量):
在这里插入图片描述

在这里插入图片描述

定义 Information content: IC(c ) = -log P(c )
并且定义LSC(C1,c2):
在这里插入图片描述

使用 Information content 表示相似度:
Resnik method:
在这里插入图片描述

Dekang Lin similarity theorem:
在这里插入图片描述
–> 自然语言处理笔记week8

  • 18
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值