AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

最新推荐文章于 2024-06-02 18:21:33 发布

liangdengne_123

最新推荐文章于 2024-06-02 18:21:33 发布

阅读量118

点赞数

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/liangdengne_123/article/details/130910315

版权

Amazon以新范式改善Alexa人工智能，模型只需最少的人工输入，就能将知识在不同语言中转移，官方提到，这样的模型有效提高新功能的开发速度，并且能够同时在多种语言上改进Alexa。当前人工智能的主要进步都来自监督式学习，也就是使用带注解的资料训练模型，但Amazon提到，随着商业人工智能规模不断扩大，依赖注解的方法变得不可行。

为了解决这个问题，Amazon发展出了新方法，引入基于Transformer的大规模多语言模型AlexaTM（Alexa Teacher Models），只需要给几个任务提示，AlexaTM就能够将已知的知识，从一个语言转移到另一个新语言，而这过程不需要额外的人工监督。

仅有200亿参数的AlexaTM 20B，在多种语言任务上优于拥有数千亿参数的大型模型。AlexaTM 20B不仅可以跨语言迁移所学知识，还可以从小样本中学习新任务，官方提到，他们的研究是受到OpenAI GPT-3模型的启发，但是相较于其他唯解码器架构的大型语言模型，AlexaTM 20B采用串行到串行（seq2seq）的编码器-解码器架构。

AlexaTM 20B在翻译和文本摘要的效果优于GPT-3，同时也支持更多的语言，包括阿拉伯语、英语、法语、泰米尔语和泰卢固语等。而且因为AlexaTM 20B的参数数量较少，且Amazon对训练引擎的改进，因此AlexaTM 20B在训练期间的碳足迹，只有GPT-3的五分之一。

不只如此，在给定单个文章摘要的情况下，AlexaTM 20B可以比拥有5,400亿参数的PaLM 540B模型，生成更高品质的英语、德语和西班牙语摘要。

而在Flores-101资料集上，AlexaTM 20B的小样本机器翻译，几乎大胜所有语言模型，特别是在马拉地语、泰米尔语和泰卢固语等低资源语言间翻译的效果更好。官方提到，这表示他们大规模seq2seq方式的预训练，可以提高低资源语言的机器翻译品质，与需要平行翻译资料进行训练的多对多机器翻译系统相比，从不同语言进行翻译对AlexaTM 20B可说是毫无难度。

AlexaTM 20B是目前最大的多语言seq2seq模型，能够进行小样本学习，Amazon现在对外发布，限用于非商业用途，以促进开发和评估多语言大型语言模型。

而Amazon经过分析，发现AlexaTM 20B与其他大型语言模型一样，产生的内容可能包含来自训练资料中的有毒语言、社会偏见和刻板印象，因此官方提醒用户，需对该模型的使用进行完整的公平和偏见分析，以充分了解可能产生的危害。

liangdengne_123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

AlexaTM 20B不仅可以跨语言迁移所学知识，还可以从小样本中学习新任务，官方提到，他们的研究是受到OpenAI GPT-3模型的启发，但是相较于其他唯解码器架构的大型语言模型，AlexaTM 20B采用串行到串行（seq2seq）的编码器-解码器架构。而Amazon经过分析，发现AlexaTM 20B与其他大型语言模型一样，产生的内容可能包含来自训练资料中的有毒语言、社会偏见和刻板印象，因此官方提醒用户，需对该模型的使用进行完整的公平和偏见分析，以充分了解可能产生的危害。
复制链接

扫一扫

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

“相关推荐”对你有帮助么？