论文笔记整理:吴林娟,天津大学硕士。
链接:
https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf
动机
具有挑战性、值得信赖的评估数据可以促进多语言模型的发展,为了鼓励对多语言问答技术的研究,作者提出了数据集TyDi QA,这是一个涵盖了 11 种不同类型语言和204K个问答对的问答语料库。其中的11种语言在类型上是多种多样的,作者期望在这个数据集上表现良好的模型,能推广运用到世界上的众多其他语言。
简介
问答系统给人们获取信息带来了极大的方便,现有的先进的问答系统主要都是通过了英文的数据集测试,但是很多能从问答系统中受益的人并不会英语。世界上的语言展现出惊人的语言现象,用以表达意义。《世界语言结构图集》按照192种类型特征对2600种语言进行了分类,其中包括词序(word order)、重叠(reduplication)、按照句法编码的语法含义、格标记(case marking)、复数系统、问题标记、相对化(relativization)等现象。如果想要构建能够准确地表示所有人类语言的模型,那么必须根据能够证明这种多样性的数据来评估这些模型。
本文数据构建的目标:
1.使研究工作朝着建立大约世界前100种语言的高质量问答系统的方向发展;
2.鼓励研究能够很好地跨越世界语言的语言现象和数据场景的模型。
作者描述了TYDI-QA语言的类型特征,并提供了从数据中提取的一些相关现象的隐藏示例,以使研究人员了解非英语文本中存在的挑战,然后在模型中去处理这些挑战。作者也提供了一个开源的基线模型和带有隐藏测试集的公共排行榜(