Facebook 宣布开源了一个名为 Flores-101 的数据集。该公司表示,这是一个首创的多对多评估数据集,涵盖世界各地的101种语言;这个工具使研究人员能够快速测试和改进像 M2M-100 这样的多语言翻译模型。
我们公开 FLORES-101,是因为我们相信可以打破语言障碍,这意味着要帮助研究人员创造更多不同的(和当地相关的)翻译工具--这些工具可能会使从孟加拉语翻译到马拉地语的工作变得简单,就像今天从英语翻译到西班牙语一样。我们正在制作完整的 FLORES-101 数据集,以及随附的技术报告和几个模型,供整个研究界使用,以加快全球多对多翻译系统的进展。
Facebook 通过多阶段过程组合了构成 Flores-101 的文本。首先,该公司请专业翻译团队将每段文字翻译成支持的语言。然后,编辑检查每个文档是否有错误;最后再将其移交给另一个翻译团队,后者最终确定了数据集。
根据介绍,FLORES-101 侧重于所谓的低资源语言,如阿姆哈拉语、蒙古语和乌尔都语,这些语言目前没有广泛的数据集用于自然语言处理研究。研究人员将首次能够通过 10,100 个不同的翻译方向可靠地衡量翻译质量--例如,直接从印地语到泰语或斯瓦希里语。目前,FLORES 中使用的 80% 以上的语言都是低资源语言。优品拍拍
官方表示,FLORES 从多个不同领域提取内容,包括新闻、旅游指南和各种不同主题的书籍。且 FLORES 旨在翻译选定文档中的多个相邻句子,这意味着模型可以衡量文档级上下文是否提高了翻译质量。 FLORES 还为每个翻译提供完整的元数据,包括超链接、URL、图像和文章主题等信息。