论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库

论文笔记整理:吴林娟,天津大学硕士。链接:https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf动机具有挑战性、值得信赖的评估数据可...
摘要由CSDN通过智能技术生成

论文笔记整理:吴林娟,天津大学硕士。


链接:

https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf

动机

具有挑战性、值得信赖的评估数据可以促进多语言模型的发展,为了鼓励对多语言问答技术的研究,作者提出了数据集TyDi QA,这是一个涵盖了 11 种不同类型语言和204K个问答对的问答语料库。其中的11种语言在类型上是多种多样的,作者期望在这个数据集上表现良好的模型,能推广运用到世界上的众多其他语言。

简介

问答系统给人们获取信息带来了极大的方便,现有的先进的问答系统主要都是通过了英文的数据集测试,但是很多能从问答系统中受益的人并不会英语。世界上的语言展现出惊人的语言现象,用以表达意义。《世界语言结构图集》按照192种类型特征对2600种语言进行了分类,其中包括词序(word order)、重叠(reduplication)、按照句法编码的语法含义、格标记(case marking)、复数系统、问题标记、相对化(relativization)等现象。如果想要构建能够准确地表示所有人类语言的模型,那么必须根据能够证明这种多样性的数据来评估这些模型。

本文数据构建的目标:

1.使研究工作朝着建立大约世界前100种语言的高质量问答系统的方向发展;

2.鼓励研究能够很好地跨越世界语言的语言现象和数据场景的模型。

作者描述了TYDI-QA语言的类型特征,并提供了从数据中提取的一些相关现象的隐藏示例,以使研究人员了解非英语文本中存在的挑战,然后在模型中去处理这些挑战。作者也提供了一个开源的基线模型和带有隐藏测试集的公共排行榜(

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值