本文主要讲解语言中的指称和指称的消解,介绍其相关定义和发展情况。
1.什么是指代消解?
指代是指:识别所有涉及到相同现实世界实体的 提及。通俗点讲是篇章中的一个语言单位(通常是词或短语)与之前出现的语言单位存在特殊语义关联,其语义解释依赖于前者。例如He, her 都是实体的提及,He,her的具体表示意思依赖与之前出现的语言单位。
举几个例子:
李明怕高妈妈一人呆在家里寂寞,他便将家里的电视搬了过来。
上面例子中的加粗部分,很明显依赖于前文。在语言学把用于指向的语言单位(上面例子中的粗体部分)称为照应语(或指代语Anaphor),被指向的语言单位(具体的实体)称为先行语(或先行词Antecedent)。确定照应语所指的先行语的过程就是指代消解。
2.指代消解可用于哪些场景?
- 全文理解:信息提取, 回答问题, 总结。例:“他生于1961年”(谁?)
- 机器翻译:语言对性别,数量等有不同的特征
- 对话系统
3.指代发现的方式
- Pronouns 代词:因为代词是 POS 检测结果的一种,所以只要使用 POS 检测器即可。
- Named entities 命名实体:使用命名实体识别系统。
- Noun phrases 名词短语:使用依存句法分析方法。
基于以上方法我们可能获取到比较多的非指代的词,如:"Every student"、"No student"、"The best donut in the world",,我们如何处理呢?
- 可以训练一个分类器过滤掉 假的指代
- 更为常见的:保持所有 指代作为 “候选指代”。在你的共指系统运行完成后,丢弃所有的单个引用(即没有被标记为与其他任何东西共同引用的)
流水线系统:我们可以训练一个专门用于指代检测的分类器,而不是使用POS标记器、NER系统和解析器。甚至端到端共同完成 指代检测和共指解析,而不是两步。
4.指代消解的分类
从照应语的角度将指代消解分为三类:
-
按先行词与照应语出现的顺序分类
若照应语的位置在先行语之前则称为预指消解,当照应语位于先行语之后称为回指消解。 -
按照应语的抽象程度分类
根据指代的表现形式的抽象程度,指代消解分为名词消解、代词消解、零代词消解,具体有六种:
其中,零代词在中文句子中出现的频率很高。
3.按照应语在句子中语义关系强弱程度分类
当先行语和照应语存在等价关系,并同时指向同一个实体时叫做共指。共指关系脱离上下文的语义仍旧独立存在,与上下文关系较弱。