词汇语义计算-北京大学计算机科学技术研究所
《语义计算与知识检索》研究生课程
词汇语义计算(三 )
万小军
北京大学语言计算与互联网挖掘组
2017年3月15日
/lcwm/course/sckr2017
内容
词义消歧(WSD)
词汇语义应用
2 北京大学语言计算与互联网挖掘研究室
词义消歧(WSD)
3 北京大学语言计算与互联网挖掘研究室
词义消歧(WSD)概述
4 北京大学语言计算与互联网挖掘研究室
定义
词义消岐(Word Sense Disambiguation) : 为一
个词语从预先设定的词义项集中选择一个词义
词义项集来自与词典或知识库
基于知识的方法 & 监督学习的方法
词义区分(Word Sense Discrimination) :在没
有预定义的词义项集的情况下,将一个词语的使用
划分为不同意义项
无监督方法
5 北京大学语言计算与互联网挖掘研究室
WSD问题定义
许多词语具有多个词义 (homonymy / polysemy)
– Ex: “chair” – furniture or person
– Ex: “child” – young person or human offspring
确定在特定句子中一个词语采用哪个词义
说明:
通常一个词语的不同词义紧密相关
Ex: Bank: -financial institute
-building of the financial institute
有时候几个词义能够在一个上下文中同时被激发(co-activation)
Ex: “This could bring competition to the trade”
competition: - the act of competing
- the people who are competing
6 北京大学语言计算与互联网挖掘研究室
词义表示
词在给定上下文中的意义
词义表示
根据词典
chair = a seat for one person, with a support for the back; "he
put his coat over the back of the chair and sat down"
chair = the position of professor; "he was awarded an endowed
chair in economics"
根据在另一语言中的翻译
chair = chaise (法语)
chair = directeur (法语)
根据词出现的上下文(discrimination)
“Sit on a chair” “Take a seat on this chair”
“The chair of the Math Department” “The chair of the meeting”
向量表示(词义嵌入)
每个词对应多个向量表示,而非传统的一个向量表示
7 北京大学语言计算与互联网挖掘研究室