本文提出使用其他模态的无关数据改进特定模态的Transformer,例如使用音频或点云数据来改进ImageNet模型。本文强调的是目标模态的数据样本与其他模态无关,这将本文方法与其他使用不同模态配对(CLIP)或交织数据的研究区分开来。本文提出了一种称为多模态路径(Multimodal Pathway)的方法–给定一个目标模态和为其设计的Transformer,本文使用另一个模态数据训练的辅助Transformer,并构建连接两个模型的组件路径,以便为两个模型都能处理目标模态数据。通过这种方式,本文利用了从两种模态获得的Transformer通用序列建模能力。本文像以往一样使用特定于任务的令牌器和特定于任务的头,但通过提出的名为跨模态重参数化的方法利用辅助模型的Transformer且没有推断成本。
架构设计
本文为特定模态设计一个Transformer,包含三个模块:特定模态令牌器,模态无关Transformer块和模态特定头。假定令牌维度为
D
D
D,接下来描述如何令牌化多个模态的输入数据到D维度令牌。
图像令牌器
图像输入表示为
x
I
∈
R
H
×
W
×
C
x_{I}\in \mathbb{R}^{H\times W\times C}
xI∈RH×W×C。给定图像补丁
(
S
,
S
)
(S,S)
(S,S),可以获得:
x
i
∈
R
H
×
W
×
C
→
x
l
′
∈
R
H
W
S
2
×
D
x_{i}\in \mathbb{R}^{H\times W\times C}\rightarrow x_{l}^{\prime}\in \mathbb{R}^{\frac{HW}{S^{2}}\times D}
xi∈RH×W×C→xl′∈RS2HW×D
视频令牌器
与2D图像类似,本文使用视频补丁作为学习视频表示的基本单元。给定N帧视频
x
∈
R
N
×
H
×
W
×
C
x\in \mathbb{R}^{N\times H\times W\times C}
x∈RN×H×W×C,与图像相似,使用
S
×
S
S\times S
S×S嵌入层得到:
x
V
∈
R
N
×
H
×
W
×
C
→
x
V
′
∈
R
N
H
W
S
2
×
D
x_{V}\in \mathbb{R}^{N\times H\times W\times C}\rightarrow x_{V}^{\prime}\in \mathbb{R}^{\frac{NHW}{S^{2}}\times D}
xV∈RN×H×W×C→xV′∈RS2NHW×D
点云令牌器
给定包含
P
P
P点的点云,每个点
X
=
{
x
i
}
i
=
1
P
\mathcal{X}=\{x_{i}\}_{i=1}^{P}
X={xi}i=1P,每个点
x
i
x_{i}
xi定义为
x
i
=
(
p
i
,
f
i
)
x_{i}=(p_{i},f_{i})
xi=(pi,fi),
p
i
p_{i}
pi是3D坐标,
f
i
∈
R
c
f_{i}\in \mathbb{R}^{c}
fi∈Rc是属性。使用最远点采样以1/4的固定采样率对原始点代表性骨架。然后通过在每对群之间构建邻接矩阵来对几何相关性进行建模,之后投影到D维度令牌。
x
P
∈
R
P
×
(
3
+
c
)
→
x
p
′
∈
R
P
4
×
P
4
→
x
p
′
′
∈
R
P
4
×
D
x_{P}\in \mathbb{R}^{P\times (3+c)}\rightarrow x_{p}^{\prime}\in \mathbb{R}^{\frac{P}{4}\times \frac{P}{4}}\rightarrow x_{p}^{\prime\prime}\in \mathbb{R}^{\frac{P}{4}\times D}
xP∈RP×(3+c)→xp′∈R4P×4P→xp′′∈R4P×D
音频频谱图令牌器
定义
T
T
T和
F
F
F是时间帧和频率区间,使用
x
A
∈
R
T
×
F
x_{A}\in \mathbb{R}^{T\times F}
xA∈RT×F表示一个样本。与2D图像类似,将音频样本视为单通道图像,并使用类似的嵌入层:
x
A
∈
R
T
×
F
→
x
A
′
∈
R
T
F
S
2
×
D
x_{A}\in \mathbb{R}^{T\times F}\rightarrow x_{A}^{\prime}\in \mathbb{R}^{\frac{TF}{S^{2}}\times D}
xA∈RT×F→xA′∈RS2TF×D
跨模态重参数化
对于特定模态的M2PT模型,在Transformer块中使用跨模态重参数化,以利用在另一模态上训练的另一个模型权重。定义
θ
\theta
θ是Transformer中一层的任意可训练参数,
x
x
x是输入,
y
y
y是输出。使用跨模态重参数化。只需使用在另一模态上训练的另一模态中对应层的参数重参数化该层。定义
θ
′
\theta^{\prime}
θ′是对方模态的参数,操作变为:
y
=
f
(
x
;
θ
+
λ
θ
′
)
y=f(x;\theta+\lambda\theta^{\prime})
y=f(x;θ+λθ′)
λ
\lambda
λ称为跨模态尺度。训练后,通过计算和保存
θ
^
=
θ
+
λ
θ
′
\hat{\theta}=\theta+\lambda\theta^{\prime}
θ^=θ+λθ′,使得模型将不再具有额外的参数,并且推理成本和模型大小将与常规模型相同。
使用跨模态重参数化,本文等价地实现了提出的M2PT Transformer块,具有边际训练成本并完全没有额外推理成本。为了简洁这里省略了偏差项,原始的操作描述为:
y
=
x
W
y=xW
y=xW
线性层和对应模态的采用相同输入,结果将变为:
y
=
x
W
+
λ
(
x
W
′
)
y=xW+\lambda(xW^{\prime})
y=xW+λ(xW′)
注意到:
x
W
+
λ
(
x
W
′
)
=
x
(
W
+
λ
W
′
)
xW+\lambda(xW^{\prime})=x(W+\lambda W^{\prime})
xW+λ(xW′)=x(W+λW′)
使得两层可以由具有可训练标量
λ
\lambda
λ和附加的可训练矩阵的单层等效实现。该附加的可训练矩阵用辅助模型中对应矩阵初始化。原始权重矩阵和附加权重矩阵都是可训练的。在每次正向计算时,层计算等效权重矩阵,然后使用它来投影输入,即
y
=
x
(
W
+
λ
W
′
)
y=x(W+\lambda W^{\prime})
y=x(W+λW′)