AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

 

Amazon以新范式改善Alexa人工智能,模型只需最少的人工输入,就能将知识在不同语言中转移,官方提到,这样的模型有效提高新功能的开发速度,并且能够同时在多种语言上改进Alexa。当前人工智能的主要进步都来自监督式学习,也就是使用带注解的资料训练模型,但Amazon提到,随着商业人工智能规模不断扩大,依赖注解的方法变得不可行。

为了解决这个问题,Amazon发展出了新方法,引入基于Transformer的大规模多语言模型AlexaTM(Alexa Teacher Models),只需要给几个任务提示,AlexaTM就能够将已知的知识,从一个语言转移到另一个新语言,而这过程不需要额外的人工监督。

仅有200亿参数的AlexaTM 20B,在多种语言任务上优于拥有数千亿参数的大型模型。AlexaTM 20B不仅可以跨语言迁移所学知识,还可以从小样本中学习新任务,官方提到,他们的研究是受到OpenAI GPT-3模型的启发,但是相较于其他唯解码器架构的大型语言模型,AlexaTM 20B采用串行到串行(seq2seq)的编码器-解码器架构。

AlexaTM 20B在翻译和文本摘要的效果优于GPT-3,同时也支持更多的语言,包括阿拉伯语、英语、法语、泰米尔语和泰卢固语等。而且因为AlexaTM 20B的参数数量较少,且Amazon对训练引擎的改进,因此AlexaTM 20B在训练期间的碳足迹,只有GPT-3的五分之一。

不只如此,在给定单个文章摘要的情况下,AlexaTM 20B可以比拥有5,400亿参数的PaLM 540B模型,生成更高品质的英语、德语和西班牙语摘要。

而在Flores-101资料集上,AlexaTM 20B的小样本机器翻译,几乎大胜所有语言模型,特别是在马拉地语、泰米尔语和泰卢固语等低资源语言间翻译的效果更好。官方提到,这表示他们大规模seq2seq方式的预训练,可以提高低资源语言的机器翻译品质,与需要平行翻译资料进行训练的多对多机器翻译系统相比,从不同语言进行翻译对AlexaTM 20B可说是毫无难度。

AlexaTM 20B是目前最大的多语言seq2seq模型,能够进行小样本学习,Amazon现在对外发布,限用于非商业用途,以促进开发和评估多语言大型语言模型。

而Amazon经过分析,发现AlexaTM 20B与其他大型语言模型一样,产生的内容可能包含来自训练资料中的有毒语言、社会偏见和刻板印象,因此官方提醒用户,需对该模型的使用进行完整的公平和偏见分析,以充分了解可能产生的危害。

更多内容参见:20B-parameter Alexa model sets new marks in few-shot learning - Amazon Science

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值