方法
首先学习一个嵌入空间,在这个空间中,内容相似的两个视频可以方便地在时间上对齐。作者首先旨在优化嵌入空间,仅考虑两个视频之间的全局对齐成本,这可能导致琐碎的解决方案。为了克服这个问题,作者调整嵌入空间,使得对于每个输入视频,时间上靠近的帧被映射到嵌入空间中的邻近点,而时间上远离的帧被相应地映射到嵌入空间中的远处。
Notations:
f θ f_\theta fθ表示一个参数为 θ \theta θ的神经网络,定义两个输入 X = { x 1 , x 2 , . . . , x n } X=\{x_1,x_2,...,x_n\} X={x1,x2,...,xn}和 Y = { y 1 , y 2 , . . . , y m } Y=\{y_1,y_2,...,y_m\} Y={y1,y2,...,ym},n和m表示视频X和Y的帧数量,定义X和Y的帧级特征为 f θ ( X ) = { f θ ( x 1 ) , f θ ( x 2 ) , . . . , f θ ( x n ) } f_\theta(X)=\{f_\theta(x_1),f_\theta(x_2),...,f_\theta(x_n)\} fθ(X)={fθ(x1),fθ(x2),...,fθ(xn)}和 f θ ( Y ) = { f θ ( y 1 ) , f θ ( y 2 ) , . . . , f θ ( y m ) } f_\theta(Y)=\{f_\theta(y_1),f_\theta(y_2),...,f_\theta(y_m)\} fθ(Y)={fθ(y1),fθ(y2),...,fθ(ym)}。
Temporal Alignment Loss
作者采用经典的DTW作为时序对齐损失,通过利用时间视频对齐作为借口任务来探索DTW用于自监督视频表示学习。
给定两个输入KaTeX parse error: Expected 'EOF', got '}' at position 12: f_\theta(X)}̲和f_\theta(Y)},计算距离矩阵
D
∈
R
n
∗
m
D∈R^{n*m}
D∈Rn∗m,其中每个元素
D
(
i
,
j
)
=
∣
∣
f
θ
(
x
i
)
−
f
θ
(
y
i
)
∣
∣
2
D(i,j)=||f_\theta(x_i)-f_\theta(y_i)||^2
D(i,j)=∣∣fθ(xi)−fθ(yi)∣∣2。DTW通过找到D中的最小损失路径来计算X和Y的对齐损失。
d
t
w
(
X
,
Y
)
=
m
i
n
A
∈
A
n
,
m
<
A
,
D
>
dtw(X,Y)=min_{A∈A_{n,m}}<A,D>
dtw(X,Y)=minA∈An,m<A,D> (1)
其中
A
n
,
m
⊂
0
,
1
n
×
m
A_{n,m}\subset {0,1}^{n\times m}
An,m⊂0,1n×m,是一个所有可能的对齐矩阵的集合,对应于从D的左上角到右下角的路径。
A
∈
A
n
,
m
A\in A_{n,m}
A∈An,m是一个景点的对齐矩阵,如果X中的
x
i
x_i
xi与Y中
y
j
y_j
yj对齐,则令A(i,j)=1。
r
(
i
,
j
)
=
D
(
i
,
j
)
+
m
i
n
{
r
(
i
−
1
,
j
)
,
r
(
i
,
j
−
1
)
,
r
(
i
−
1
,
j
−
1
)
}
r(i,j)=D(i,j)+min\{r(i-1,j),r(i,j-1),r(i-1,j-1)\}
r(i,j)=D(i,j)+min{r(i−1,j),r(i,j−1),r(i−1,j−1)} (2)
解决公式(2)中累加距离函数可以使用动态规划算法计算DTW。
由于公式(2)中的min不可微,因此难以将其用于优化网络结构中。因此作者利用了DTW的一个continuous relaxation版本,即Soft-DTW。在Soft-DTW中,将min操作使用
m
i
n
γ
min^\gamma
minγ代替。
m
i
n
γ
{
a
1
,
a
2
,
.
.
.
,
a
n
}
=
−
γ
l
o
g
∑
i
=
1
n
e
r
−
a
i
min^\gamma\{ a_1,a_2,...,a_n\} = - \gamma log\sum_{i=1}^n e^ {\frac r {-a_i}}
minγ{a1,a2,...,an}=−γlog∑i=1ne−air (3)
γ
>
0
\gamma>0
γ>0是一个平滑参数,Soft-DTW通过找到D中的soft-minimum代价路径返回X和Y中的对齐损失,可以由公式(4)表示:
d
t
w
γ
(
X
,
Y
)
=
m
i
n
A
∈
A
n
,
m
γ
<
A
,
D
>
dtw^\gamma (X,Y)=min_{A\in A_{n,m}}^\gamma <A,D>
dtwγ(X,Y)=minA∈An,mγ<A,D> (4)
由于当
γ
\gamma
γ接近0时,平滑的
m
i
n
γ
min\gamma
minγ算子收敛到离散的
m
i
n
1
min 1
min1,所以当
γ
\gamma
γ接近0时,软DTW产生与DTW相似的结果。此外,虽然使用
m
i
n
γ
min\gamma
minγ不会使目标凸起,但它确实有助于优化,使梯度平滑,并提供更好的优化景观。
Temporal Regularization
因为DTW衡量D中的最小代价路径,仅仅优化DTW会导致微不足道的解决方案,即D中的所有元素都会接近0。换句话说,X和Y中的帧会被映射到映射空间的一个小簇。为了避免这种情况,作者添加了一个时间正则化,将其分别用在
f
θ
{
X
}
f_\theta \{X\}
fθ{X}和
f
θ
{
Y
}
f_\theta \{Y\}
fθ{Y}上。
作者采用Inverse Difference Moment作为正则项,由公式(5)表示。
I
(
X
)
=
∑
i
=
1
n
∑
j
=
1
n
W
(
i
,
j
)
S
X
(
i
,
j
)
I(X)=\sum_{i=1}^n \sum_{j=1}^nW(i,j)S_X(i,j)
I(X)=∑i=1n∑j=1nW(i,j)SX(i,j)
W
(
i
,
j
)
=
1
(
i
−
j
)
2
+
1
W(i,j)=\frac 1 {(i-j)^2+1}
W(i,j)=(i−j)2+11 (5)
S
X
∈
R
n
×
n
S_X \in R^{n \times n}
SX∈Rn×n是
f
θ
(
X
)
f_\theta(X)
fθ(X)的自相似矩阵,最大化公式(95)鼓励X中时间上邻近的帧被映射到映射空间上邻近的点。而且,作者是将IDM在每个(视频)序列上分开使用。为了将公式(5)用作损失函数,作者将最大化转换为最小化:
I
‾
(
X
)
=
∑
i
=
1
n
∑
j
=
1
n
W
‾
(
i
,
j
)
(
−
D
X
(
i
,
j
)
)
\overline I(X)=\sum_{i=1}^n \sum_{j=1}^n\overline W(i,j)(-D_X(i,j))
I(X)=∑i=1n∑j=1nW(i,j)(−DX(i,j))
W
‾
(
i
,
j
)
=
1
(
i
−
j
)
2
+
1
\overline W(i,j)=\frac 1 {(i-j)^2+1}
W(i,j)=(i−j)2+11 (6)
其中
D
X
∈
R
n
×
n
D_X \in R^{n \times n}
DX∈Rn×n是
f
θ
(
X
)
f_\theta(X)
fθ(X)的自距离矩阵,公式(6)鼓励视频X时间上接近的帧被映射到映射空间中附近的点。
但是,作者发现在上面的IDM正则化中,它使用相同的方式对待时间上近的帧和远的帧。在公式(5)中它最大化时间上距离远的帧之间的相似度尽管只有很小的权重。在公式(6)中,它仍然最大化时间上距离近的帧距离,尽管具有较小的权重。因此作者为时间上靠近和远离的帧提出了单独的术语——Contrastive-IDM:
I
∗
(
X
)
=
∑
i
=
1
n
∑
j
=
1
n
y
i
j
W
‾
(
i
,
j
)
m
a
x
(
0
,
λ
−
D
X
(
i
,
j
)
)
+
(
1
−
y
i
,
j
W
(
i
,
j
)
D
X
(
i
,
j
)
I^*(X)=\sum_{i=1}^n \sum_{j=1}^n y_{ij}\overline W(i,j)max(0,\lambda -D_X(i,j))+(1-y_{i,j}W(i,j)D_X(i,j)
I∗(X)=∑i=1n∑j=1nyijW(i,j)max(0,λ−DX(i,j))+(1−yi,jW(i,j)DX(i,j) (7)
y
i
j
=
{
1
,
∣
i
−
j
∣
>
σ
0
,
∣
i
−
j
∣
⩽
σ
y_{ij}= \left\{ \begin{matrix} 1,|i-j|>\sigma \\ 0,|i-j| \leqslant \sigma \\ \end{matrix} \right.
yij={1,∣i−j∣>σ0,∣i−j∣⩽σ
σ是用于分离时间上远离的帧和时间上距离近的帧的窗口大小,
λ
\lambda
λ是边距。Contrastive-IDM鼓励时间上距离近的帧映射在embeddings空间上邻近点;同时当它们之间的距离小于嵌入空间中的边距λ时,惩罚时间上远离的帧
Final Loss
L
(
X
,
Y
)
=
d
t
w
γ
(
X
,
Y
)
+
α
(
I
∗
(
X
)
+
I
∗
(
Y
)
)
L(X,Y)=dtw^\gamma (X,Y)+\alpha (I^*(X)+I^*(Y))
L(X,Y)=dtwγ(X,Y)+α(I∗(X)+I∗(Y)) (8)
对准损失和正则化都是可微分的,并且可以使用反向传播来优化
结论
1、引入了一种新的自监督方法,通过将视频作为一个整体进行时间对齐,利用帧级和视频级线索来学习视频表示。
2、采用经典DTW作为时间对齐损失,同时提出一个新的时间正则化,两个组件互利。