vision transformer（vit）复杂度分析

qq_33979472

已于 2024-12-18 23:29:15 修改

阅读量1.1k

点赞数 12

文章标签： python 神经网络 transformer 视觉检测图像处理

于 2024-12-18 20:59:05 首次发布

本文链接：https://blog.csdn.net/qq_33979472/article/details/144517419

版权

transformer 复杂度分析

1.Vision Transformer（VIT）复杂度
- 1.1 各个维度
- 1.2 patch embedding的复杂度
- 1.3 transformer encoder复杂度
- 1.4 前馈神经网络
- 1.5 总复杂度

1.Vision Transformer（VIT）复杂度

输入时先将图片进行分割投影---->生成query，key，value向量---->计算注意力权重（多头）---->前馈神经网络

1.1 各个维度

输入图像：H ×W×C
分割为patch的维度：P×P
分割后的patch的数量： $\frac{W\times H}{P\times P}$
每个patch的维度： $P\times P\times C$

1.2 patch embedding的复杂度

每个patch的维度： $d_{patch}=P\times P\times C$ 。
对每个patch进行维度嵌入： $patch\in \Bbb R^{1\times d_{patch}}$
patch经过线性投影到 $d_{model}$
- 线性投影权重： ${W_{weight}}^{d_{patch}\times d_{model}}$
- 对patch进行投影后的维度： $X_{embedding}^{1\times d_{model}}$
- 对N个patch进行投影后的维度： $X_{embedding}^{N\times d_{model}}$

投影的复杂度： $O_{embedding}=N\times d_{patch} \times d_{model}$

1.3 transformer encoder复杂度

输入特征 $X\in \Bbb{R}^{N\times d_{model}}$ , N为patch的数量
$Q=XW_Q$ $K=XW_K$ $V=XW_V$
$W_Q,W_K,W_V\in \Bbb R^{d_{model}\times d_{model}}$ ， $Q,K,V\in \Bbb R^{N \times d_{model}}$
复杂度计算：对于单个Q，K，V，复杂度为 $O_{Q,K,V}=N\times d_{model}^2$
总的为： $3\times O_{Q,K,V}$
注意力计算得分
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
Q和K点积计算： $QK^T\in \Bbb R^{N\times N}$ 。复杂度： $O_{QK^T}=N^2 \cdot d_{model}$ .
$softmax(\cdot)V\in \Bbb R^{N\times d_{model}}$ 。复杂度： $O_{softmax(\cdot)V}=N^2\cdot d_{model}$
单个头复杂度： $O_{head}=3Nd_{model}^2+2N^2d_{model}$
多个头复杂度：
对于h个头，每个头的维度： $d_k=\frac{d_{model}}{h}$
总复杂度： $O_{multi-head}=n(3Nd^2_k+2N^2d_k)=3Nd^2_{model}+2N^2d_{model}$

1.4 前馈神经网络

$FFN(X)=ReLU(XW_1+b_1)W_2+b_2$
$展开维度d_{ff}=4\cdot d_{model}$ ，通常是 $d_{model}$ 的四倍
$W_1\in \Bbb R^{d_{model}\times d_{ff}}$ ， $W_2\in \Bbb R^{d_{ff}\times d_{model} }$
$X\in \Bbb R^{N\times d_{model}}$
$XW_1\in \Bbb R^{N\times d_{ff}}$ ,复杂度： $O_1=N\cdot d_{model}\cdot d_{ff}$
$ReLU(XW_1+b_1)W_2\in \Bbb R^{N\times d_{model}}$ ,复杂度： $O_2=N\cdot d_{ff}\cdot d_{model}$
总复杂度： $O_{FFN}=O_1+O_2=2\cdot N\cdot d_{ff} \cdot d_{model}=8\cdot N\cdot d^2_{model}$

1.5 总复杂度

在transformer的编码器和解码器中包含3个多头注意力和2个全连接层
L:transformer的层数
$O_{vit}=O_{embedding}+L(3\cdot O_{multi-head}+2\cdot O_{FFN})=N\cdot d_{patch}\cdot d_{model}+L(3\cdot3\cdot N\cdot d_{model}^2+3\cdot2\cdot N^2\cdot d_{model}+2\cdot8\cdot N\cdot d^2_{model})$