week7课程内容
Lexical Semantics (词汇语义学)
Words (词), lemmas (词目), stems (词干):
– Celebrations, celebration, celebrate
1. Word sense (词义)
这里的word指的是lemma。
word sense指的是:一个lemma在某一个方面的含义。
由此可知:一个word可以有多个sense。
比如:Bank: financial institution; sloping mound
带来的问题:The patron orders a meal.
就这句话而言,我们有2 senses of patron, 4 of orders, 2 of meal = 16 senses of sentence
这就导致了句子含义的歧义。
sence之间的一些关系:
2. WordNet
定义: WordNet is a database of facts(Meanings and the relations among them) about words.
WordNet与其他标准词典最显著的不同在于:它将词汇分成五个大类:名词、动词、形容词、副词和虚词.
下面是单词 bass 在 WordNet 里的描述:
在WordNet中,Lexical entries(词条)是通过semantic relations(语义关系)相互连接的,这种组织方式构成了WordNet的核心特点。在WordNet里,最重要的语义关系是:同义词组
WordNet里的上位词层次结构:
可以看到,从具体的贝斯手,往下到音乐家,再到人类,再到实体,层层抽象。
Supersenses:单词的最高层的上位词。可以用做一个粗粒度的词义表示。
从数据库角度看WordNet,就是列为单词,行为同义词组。
3. Word Similarity
(1)Synonymy(同义): a binary relation。Two words are either synonymous or not。
(2)Similarity(相似度):更宽松一点。Two words are more similar if they share more features of meaning
用路径长度度量相似度:
但是这样会有一些问题,比如nickel和money、standard距离一样,但明显nickel应该和money相似度更高。因为高层更抽象,所以高层的边不应该跟下层的边的代价一样。
下面先介绍P(c ),然后引入Information content(信息量):
定义 Information content: IC(c ) = -log P(c )
并且定义LSC(C1,c2):
使用 Information content 表示相似度:
Resnik method:
Dekang Lin similarity theorem:
–> 自然语言处理笔记week8