论文浅尝 | XQA:一个跨语言开放域问答数据集

论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生。

640?wx_fmt=png

Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A Cross-lingual Open-domain Question Answering Dataset. InProceedings of the 57th Conference of the Association for ComputationalLinguistics (pp. 2358-2368).

来源:ACL 2019

链接:https://www.aclweb.org/anthology/P19-1227

 

动机

近年来,开放域问答(open-domain question answering, OpenQA)这一任务备受关注,一些模型和方法也取得了很好的结果,尤其是在使用了神经网络之后。但使用神经网络要求大量的标注数据,而这对于一些低资源量的语言是不现实的,因此现有的 OpenQA 模型无法直接用在这些语言上。解决这一问题的一种办法是构建一个跨语言的 OpenQA 系统,在高资源量的语言上(如英语)训练,在其他目标语言上为开放域问题预测答案。跨语言 QA 实际上可以被视作跨语言语言理解(cross-lingual language understanding, XLU)的一个特定任务,而 XLU 最近被用于跨语言文档分类、跨语言自然语言推理和机器翻译等任务。现有的跨语言模型大都集中在单词或句子层面上的理解,而问题和文档之间的关系以及对整个文档的理解却对 OpenQA 至关重要,然而现在并没有一个专门为跨语言 OpenQA 设计的数据集。因此,本文引入了这样的一个数据集:XQA。

 

贡献

构建了一个开源的跨语言 OpenQA 数据集:XQA,包含英语的训练集以及英语、法语、德语、葡萄牙语、波兰语、中文、俄语、乌克兰语和泰米尔语的验证集和测试集。测试集包含 56279 对英语问答对以及相关文档,验证集和测试集分

别包含 17358 和 16973 对问答对,所有问题都由来自以相应的语言为母语的人的自然语言并潜在反映了不同语言的文化差异;

使用公开的语料库构建了几个 baseline 系统,包括两个基于翻译的方法(分别翻译训练数据和测试数据)和一个零样本(zero-shot)跨语言方法(跨语言

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值