新智元报道
编辑:大明
【新智元导读】OpenAI提出新的神经网络模型“稀疏Transformer”,能够预测文本、图像和声音等序列的后续内容,该模型是对注意力机制的一个改进,预测长度达到之前最佳水平的30倍。
目前人工智能研究的一大挑战是对复杂数据(如图像,视频或声音)中的大范围微妙的相互依赖性进行建模。稀疏Transformer降低了传统注意力机制模型的计算复杂度,将其直接应用于不同的数据类型中。以前,在这些数据上使用的模型是针对某个专门领域设计的,难以扩展到超过几千个元素的序列规模上应用。
此次OpenAI提出的模型可以使用数百个层对数万个元素的序列进行建模,在多个域中实现最先进的性能。稀疏Transformer能够帮助我们构建具有更强的理解世界能力的AI系统。
深度注意力机制在稀疏Transformer中,每个输出元素都与每个输入元素相连,它们之间的权重是根据环境动态计算的,这个过程称为注意力。虽然这样会让模型比固定连接模式的模型更加灵活,但在实践中需要为每个层和注意力头N×N注意力矩阵,面对元素数量众多的数据类型时会消耗大量的内存,比如图像或原始音频数据。
数据类型 |
存储 |
重计算 |
1024 text tokens (several paragraphs) |
1.0 GB |
16 MB |
32x32x3 pixels (CIFAR-10 image) |
9.6 GB |
151 MB |
64x64x3 pixels (Imagenet |