NLP之语义角色标注

语义角色标注需要提取以动词为核心的所有信息,包含什么时间、什么地点、动作对象以及谁作出了这个动作。

语义角色标注中的几个重要概念:

  • 谓词:在一个句子中,谓语是对于主语的描述或判断的词,通常为一个动词。在句中谓词指出“做什么”、“是什么”、“怎么样”,代表了一个句子的核心。
  • 论元:在句子中和谓词搭配的通常是一个名词,我们称其为论元。
  • 语义角色:我们在为论元加上一些描述,指出它和动词搭配时担任的角色或者作用。如:时间、地点、施事者、受事者、客体、经验者、受益者、工具、目标、来源等。
  • 语义角色标注:是以句子的谓词为中心的一种对于句子的浅层分析。标注过程不对句子包含信息的进行升入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词——论元结构,并给论元一个描述也就是用语义角色,这就是语义角色标注。通常语义角色标注可以提取句子中的一些结构化信息,这对于机器理解、信息抽取、深度问答等应用非常重要。

语义角色标注方法
传统方法是将语义角色标注任务拆分成不同的环节,过程可以分为句法分析、
候选论元剪除、论元识别、论元标注、标注结界。在研究中一般都是给假定谓词是给定的,所要做的是找出给定谓词的各个论元和它们的语义角色。

如果我们得到一个句法树,可以使用哈工大的语言云平台示例生成句法分析结果。
在这里插入图片描述
传统的语义角色标注系统大多数建立在句法分析基础上,通常包含5个流程:

  1. 构建一棵句法分析树,如:上图是对例子进行依存句法分析得出的一颗句法树。

  2. 从句法树上识别出给定谓词的候选论元。

  3. 候选论元剪除:就是从大量的候选项中剪除那些最不可能成为论元的候选项。

  4. 论元识别:这个过程是从上一步剪除之后的候选中判断哪些是真正的论元,通常当做一个二分类问题来解决。

  5. 对于第四步的结果,通过多分类得到论元的语义角色标签。

    这种传统技术方法是严重依赖于语法分析结果的,句法分析的准确率本身就很难达到很高,并且每个环节的错误率都会影响下一个环节的结果,每个环节错误的传递会导致标注结果的不理想。
    传统方法的语义角色标注还不是非常有效,比如:依赖于句法分析的准确性,领域适应能力差。

浅层句法分析:摆脱了语法分析的依赖,只需要识别句子中某些结构相对简单的对立部分,例如:动词短语(NP)等。

基于语块的SRL方法:采用BIO标注的表示方法来给序列打上标签,B代表语块的开始,I代表语块的中间,O代表语块结束。例如:对于一个角色为A(施事者Agent)的论元,将它所包含的第一个语块赋予标签B-A,将它所包含的其他语块赋予标签I-A,不属于任何论元的语块赋予标签O。
在这里插入图片描述
使用BIO表示方法给这句话打上标注:
在这里插入图片描述
上表中,时间语义角色为“昨天晚上”,时间语义角色结束后,给后面的“在”字标注为O。

浅层句法分析优点:

  1. 降低了句法分析的要求和难度;
  2. 没有了候选论元剪除这一步骤;
  3. 论元的识别和标注是同时实现的,简化了流程,降低了错误累计的风险,往往能够取得更好的结果。
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页