论文浅尝 - TACL2020 | TYDI QA：Google 发表一个多语言的问答语料库

最新推荐文章于 2022-10-26 06:09:22 发布

开放知识图谱

最新推荐文章于 2022-10-26 06:09:22 发布

阅读量942

点赞数 1

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/106393813

版权

本文介绍了TYDI QA，一个涵盖11种语言的问答语料库，旨在促进多语言问答技术的研究。数据集强调类型多样性，避免翻译误差，鼓励模型在不同语言间的泛化能力。任务包括段落选择和最小答案跨度预测，提供开源基线模型和公共排行榜以跟踪社区进展。

摘要由CSDN通过智能技术生成

论文笔记整理：吴林娟，天津大学硕士。

链接：

https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf

动机

具有挑战性、值得信赖的评估数据可以促进多语言模型的发展，为了鼓励对多语言问答技术的研究，作者提出了数据集TyDi QA，这是一个涵盖了 11 种不同类型语言和204K个问答对的问答语料库。其中的11种语言在类型上是多种多样的，作者期望在这个数据集上表现良好的模型，能推广运用到世界上的众多其他语言。

简介

问答系统给人们获取信息带来了极大的方便，现有的先进的问答系统主要都是通过了英文的数据集测试，但是很多能从问答系统中受益的人并不会英语。世界上的语言展现出惊人的语言现象，用以表达意义。《世界语言结构图集》按照192种类型特征对2600种语言进行了分类，其中包括词序(word order)、重叠(reduplication)、按照句法编码的语法含义、格标记(case marking)、复数系统、问题标记、相对化(relativization)等现象。如果想要构建能够准确地表示所有人类语言的模型，那么必须根据能够证明这种多样性的数据来评估这些模型。

本文数据构建的目标：

1.使研究工作朝着建立大约世界前100种语言的高质量问答系统的方向发展；

2.鼓励研究能够很好地跨越世界语言的语言现象和数据场景的模型。

作者描述了TYDI-QA语言的类型特征，并提供了从数据中提取的一些相关现象的隐藏示例，以使研究人员了解非英语文本中存在的挑战，然后在模型中去处理这些挑战。作者也提供了一个开源的基线模型和带有隐藏测试集的公共排行榜(