transformer预测过程_OpenAI提出Sparse Transformer，文本、图像、声音都能预测，序列长度提高30倍...

最新推荐文章于 2025-03-08 11:15:00 发布

weixin_39924584

最新推荐文章于 2025-03-08 11:15:00 发布

阅读量774

点赞数

文章标签： transformer预测过程

本文链接：https://blog.csdn.net/weixin_39924584/article/details/112469160

版权

OpenAI推出稀疏Transformer模型，改进注意力机制，能预测文本、图像和声音等序列内容，预测长度比之前最佳水平提高了30倍。该模型在多个领域展现出最先进的性能，降低计算复杂度，适用于大规模序列建模。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

新智元报道

编辑：大明

目前人工智能研究的一大挑战是对复杂数据(如图像，视频或声音)中的大范围微妙的相互依赖性进行建模。稀疏Transformer降低了传统注意力机制模型的计算复杂度，将其直接应用于不同的数据类型中。以前，在这些数据上使用的模型是针对某个专门领域设计的，难以扩展到超过几千个元素的序列规模上应用。

此次OpenAI提出的模型可以使用数百个层对数万个元素的序列进行建模，在多个域中实现最先进的性能。稀疏Transformer能够帮助我们构建具有更强的理解世界能力的AI系统。

深度注意力机制

在稀疏Transformer中，每个输出元素都与每个输入元素相连，它们之间的权重是根据环境动态计算的，这个过程称为注意力。虽然这样会让模型比固定连接模式的模型更加灵活，但在实践中需要为每个层和注意力头N×N注意力矩阵，面对元素数量众多的数据类型时会消耗大量的内存，比如图像或原始音频数据。

数据类型	存储	重计算
1024 text tokens (several paragraphs)	1.0 GB	16 MB
32x32x3 pixels (CIFAR-10 image)	9.6 GB	151 MB
64x64x3 pixels (Imagenet