作者丨张倬胜
学校丨上海交通大学硕士生
研究方向丨自然语言理解
本文从计算语言学角度,提出使用显性语义角色信息来改善深度语言模型的建模性能,将语义角色标注用于机器阅读理解和推理任务中,提供更加丰富和精准的语义信息。本论文来自上海交通大学与云从科技联合创新实验室,录用于 AAAI 2020。
论文地址:https://arxiv.org/abs/1909.02209
开源代码:https://github.com/cooelf/SemBERT
引言
机器阅读理解的目标是教会机器学习并理解人类语言、像人一样思考与交流,是深度学习促进自然语言处理的研究和工程应用后兴起的实用性任务。机器阅读理解融合了文本上的知识表达、语义理解和一定程度上基于知识的推理等一系列挑战。
上下文表示是文本理解的核心模块,最新基于大规模预训练的深度语言模型有效集成了语境化特征,在大量的自然语言处理任务上获得巨大的成功,尤其是在各种机器阅读理解和自然语言推理任务。
然而,许多研究者发现当前许多机器阅读理解模型未能“真正”地理解语义信息,在一些人类易懂的题目上机器容易犯错。现有的语言表示模型(包括 ELMO、GPT、BERT、XLNet 等),只利用了简单的上下文特征,如字符或子词嵌入,缺乏对结构化语言学信息的考虑,而这些信息可以为语言表达提供丰富的语义和结构化知识,构建更加精确的文本表征。
为了增强自然语言理解,本文提出通过预训练的语义角色标注模型引入显式的上下文语义标签信息,并引入一种改进的语言表示模型——语义感知 BERT (SemBERT),它能够在 BERT 为基础的骨架网络上,显性地融合上下文语义信息。SemBERT 保持了 BERT 的易用性,只需进行适应性的微调,而无需对特定任务进行大幅度的模型修改。
与 BERT 相比,SemBERT 在概念上同样简单,但性能却更为强大。SemBERT 在 10 项自然语言理解任务上显著地提升了基准模型,甚至达到了最佳的水平。
▲ SemBERT模型架构
SemBERT 模型包括三个部分:
1)语义角色标注器,用于对文本进行标注,给输入的句子标注谓词-论元结构(词级别);
2)序列编码模块,其中使用预训练的语言模型构建输入原始文本的向量表示,通过 CNN 将子词级表示重构为词级别实现与标签对齐;同时,将语义角色标签向量化,构建语义标签向量表示;
3)语义集成模块,用于将文本表示与语义标签向量表示集成融合,以获得可用于下游任务的联合表示。