Vision Transformer计算复杂度详细推导过程

最新推荐文章于 2024-12-18 20:59:05 发布

Waiyuet Fung

最新推荐文章于 2024-12-18 20:59:05 发布

阅读量502

点赞数

文章标签： transformer 深度学习人工智能机器学习计算机视觉

本文链接：https://blog.csdn.net/weixin_35749545/article/details/129532803

版权

Vision Transformer的计算复杂度取决于多个因素，如模型结构、输入图像的大小、Transformer层数等。具体来说，假设我们有一个输入图像大小为$H \times W \times C$，Transformer模型有$L$层，每层有$d_{model}$维词向量和$d_{ff}$维前馈网络，那么其计算复杂度为$O(L(HWCd_{model} + d_{model}^2d_{ff}))$。

首先，我们将输入图像展平成一个长度为$HWC$的词向量序列。对于每一层Transformer，计算词向量的自注意力和前馈网络的复杂度分别为$O(HWCd_{model})$和$O(d_{m