导读:近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上实现了任意互译。其中的亮点在于:研究者让大多数低资源语言训练数据量提升了多个数量级,相当于规模提升百倍甚至千倍;实现了200+语言翻译的平均新SOTA。
图注:NLLB团队统计的公开翻译数据(蓝色柱)和经过一系列方法后获得的训练数据(绿色柱)进行的对比。
目前,Meta已在其博客上公布了NLLB-200的最新应用:用多国语言翻译各国儿童故事。此外,利用NLLB-200实现元宇宙用户自由交流,也成为未来Meta关注的发展方向。
机器翻译一直是自然语言处理领域的重要任务。随着预训练模型的出现,机器翻译模型的性能已经得到了明显的进步。然而,当前机器翻译主要解决的是英语与其他语言的互译。有大量的语言缺乏基本的训练数据,使得构建通用机器翻译模型成为无源之水、无本之木。
怎样解决困扰通用机器翻译研究的问题?千倍翻译数据增长背后使用哪些新技术?近日,智源社区邀请NLLB-200的作者之一,MetaAI研究科学家Maha Elbayad博士进行了详解。
作者介绍:Maha Elbayad博士是Meta AI的研究科学家,致力于研究低资源和大规模多语言机器翻译领域。在加入Meta之前,她获得了格勒诺布尔阿尔卑斯大学的应用数学和计算机科学博士学位,以及巴黎萨克雷高等师范学院和巴黎中央大学的应用数学理学硕士学位。
她的研究项目包括具有二维卷积的序列到序列模型、具有早期停止机制的计算高效Transformer解码器模型,以及具有K步等待解码机制的同声传译模型等。她共同组织了第二届自动同声传译Workshop和IWSLT 2021 & 2022同声传译共享任务。
整理:戴一鸣
编辑:李梦佳
01
背景
当前,机器翻译领域的面临的一项挑战是:机器翻译主要是研究英语与其他语言之间的翻译问题。例如,有法语和英语的文本,用户想从法语翻译成英语,或者从英语翻译回法语,是可以用相同模型的。但如果想从英语翻译成中文,或者其他语言,就需要训练新的模型。
机器翻译领域的“圣杯”是发展一种通用的机器翻译方法,通过一个模型来实现多种领域下两个任意语言之间的互译。据统计,目前全球有超过4000种书面语言。如果我们将其扩展到非书面语言,这个数字会上升到7000。而目前谷歌翻译能够实现大约130种语言的翻译。微软翻译到今年7月达到110种。这里需要解决的问题是&#