transformer预测过程_OpenAI提出Sparse Transformer,文本、图像、声音都能预测,序列长度提高30倍...

OpenAI推出稀疏Transformer模型,改进注意力机制,能预测文本、图像和声音等序列内容,预测长度比之前最佳水平提高了30倍。该模型在多个领域展现出最先进的性能,降低计算复杂度,适用于大规模序列建模。
摘要由CSDN通过智能技术生成

c11ddd00b280c903b58a15d48f07a023.png

  新智元报道   

编辑:大明

【新智元导读】OpenAI提出新的神经网络模型“稀疏Transformer”,能够预测文本、图像和声音等序列的后续内容,该模型是对注意力机制的一个改进,预测长度达到之前最佳水平的30倍。

目前人工智能研究的一大挑战是对复杂数据(如图像,视频或声音)中的大范围微妙的相互依赖性进行建模。稀疏Transformer降低了传统注意力机制模型的计算复杂度,将其直接应用于不同的数据类型中。以前,在这些数据上使用的模型是针对某个专门领域设计的,难以扩展到超过几千个元素的序列规模上应用。

此次OpenAI提出的模型可以使用数百个层对数万个元素的序列进行建模,在多个域中实现最先进的性能。稀疏Transformer能够帮助我们构建具有更强的理解世界能力的AI系统。

深度注意力机制

在稀疏Transformer中,每个输出元素都与每个输入元素相连,它们之间的权重是根据环境动态计算的,这个过程称为注意力。虽然这样会让模型比固定连接模式的模型更加灵活,但在实践中需要为每个层和注意力头N×N注意力矩阵,面对元素数量众多的数据类型时会消耗大量的内存,比如图像或原始音频数据。

数据类型

存储

重计算

1024 text tokens  (several paragraphs)

1.0 GB

16 MB

32x32x3 pixels  (CIFAR-10 image)

9.6 GB

151 MB

64x64x3 pixels  (Imagenet

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值