Vision Transformer (ViT) 计算复杂度详解

edvincecilia

已于 2024-11-23 22:16:17 修改

阅读量1.2k

点赞数 24

文章标签： transformer

于 2024-11-23 22:14:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41037856/article/details/144000090

版权

Vision Transformer (ViT) 计算复杂度详解

1. 输入与 Patch Embedding 的复杂度

1.1 输入图像

假设输入图像的尺寸为：
$\text{输入图像} = H \times W \times C$

$H$ 和 $W$ ：图像的高度和宽度。
$C$ ：图像的通道数（通常为 3，代表 RGB 图像）。

1.2 Patch 分割

将图像分割成 $\times P$ 的 Patch，每个 Patch 被展平为一维向量，作为 Transformer 的输入。

Patch 的数量：
$\frac{H \cdot W}{P^2}$
$N$ 是分割得到的 Patch 数。
每个 Patch 的维度：
$d_{\text{patch}} = P \cdot P \cdot C$
即每个 Patch 包含 $\times P$ 个像素，乘以通道数 $C$ 。

1.3 Patch Embedding

每个 Patch 经过一个线性层投影到固定维度 $d_{\text{model}}$ ：

线性变换的权重矩阵大小：
$W_{\text{embed}} \in \mathbb{R}^{d_{\text{patch}} \times d_{\text{model}}}$
线性变换的计算复杂度：
对所有 $N$ 个 Patch 执行线性变换：
$O_{\text{embedding}} = N \cdot d_{\text{patch}} \cdot d_{\text{model}}$

2. Transformer Encoder 的复杂度

Transformer Encoder 是 ViT 的核心组件，其复杂度主要来源于 多头自注意力机制 和 前馈网络。

2.1 多头自注意力机制

2.1.1 Query、Key、Value 计算

对于输入特征 $\in \mathbb{R}^{N \times d_{\text{model}}}$ ：

计算 Query、Key 和 Value：
$XW_Q, \quad K = XW_K, \quad V = XW_V$
其中

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。