笔记整理:谭亦鸣, 东南大学博士生
来源:NAACL'21
链接:https://aclanthology.org/2021.naacl-main.465/
概述
为了扩展多语言知识图谱问答的应用,Zero-shot方法成为一个研究趋势。在Zero-shot的设定下,通过高资源语言的训练数据构建模型,解决无标注的多语言问题。一个直观的方法是使用多语言的预训练模型(例如m-BERT)来做跨语言的转换,但目前优势语言与其他语言的问答性能之间仍然存在明显的差异。在这篇论文中,作者提出了一种无监督双语词归纳方法(BLI)将优势语言的问题(论文中的原语言)映射到其他语言上,作为扩展训练集。从而解决训练和推理之间的语言不一致问题。进一步的,通过一个对抗学习策略来解决扩展集存在的语法障碍问题,使得到的模型具有语言和语法的独立性。在一个具有11种Zero-shot数据集上实验验证的该方法的有效性。
动机
对于多语言图谱问答任务, 现有的benchmark广泛使用了翻译方法, 即利用机器翻译将优势语言资源的训练数据翻译为其他语言, 从而扩充为多语言训练集. 但是这类方法严重