从分析粒度上可以分成:词语级语义分析、句子级语义分析以及篇章级语义分析。
词语级的语义分析:
词语级别的语义分析主要研究词语的含义,常见的任务有:词语消歧、词表示、同义词或上下位词的挖掘。
1、词语消歧:一词多义是许多语言的固有属性,如“苹果”可以指水果,又可以指美国的科技公司。词语消歧的任务是判断文中出现的词语属于哪种意思。
2、词表示:词表示的任务是用一个k维的向量表示一个词,并且该向量中包含着词语的意思,常用的词向量表征框架是word2vec,该方法训练得到的词向量能够让语义相关的词具有相似的词向量,并且词向量间还具有逻辑推算能力。
3、同义词和上下位词的挖掘:语言的多样性导致了一词多义,如“房子”的近义词有房屋、房产。语言的层次性导致了词语间具有上下位关系,像房产、存款、股票可归纳位财产,可以使用一些机器学习的方法挖掘词语间的这种关系。
句子级的语义分析:
句子级的语义分析任务比较多,如:语义角色标注、蕴含分析、句子表示、语义依存分析。
1、语义角色标注(Semantic Role Labeling,SRL)是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元(语义角色),如施事、受事、时间和地点等。能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
2、文本蕴含(Textual Entailment)是指两个文本片段有指向关系。当认为一个文本片段真实时,可以推断出另一个文本片段的真实性。
3、句子表示:和词表示类似,句子表示研究的是用一个k维的向量表示一句话的含义,常用句子向量在文本检索、问答系统中计算文档间的相似度。
4、语义依存分析(Semantic Dependency Parsing,SDP)分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。语义依存分析目标是跨越句子表示层句法结构的束缚,直接获取深层的语义信息。
篇章级的语义分析:
篇章级的语义分析是句子级研究的延申,常见的任务是指代消解:
- 人称代词(Pronoun)
- 指示代词(Demonstrative)
- 有定描述(Definite Description)