Learning by Aligning Videos in Time

方法

在这里插入图片描述
首先学习一个嵌入空间,在这个空间中,内容相似的两个视频可以方便地在时间上对齐。作者首先旨在优化嵌入空间,仅考虑两个视频之间的全局对齐成本,这可能导致琐碎的解决方案。为了克服这个问题,作者调整嵌入空间,使得对于每个输入视频,时间上靠近的帧被映射到嵌入空间中的邻近点,而时间上远离的帧被相应地映射到嵌入空间中的远处。

Notations:

f θ f_\theta fθ表示一个参数为 θ \theta θ的神经网络,定义两个输入 X = { x 1 , x 2 , . . . , x n } X=\{x_1,x_2,...,x_n\} X={x1,x2,...,xn} Y = { y 1 , y 2 , . . . , y m } Y=\{y_1,y_2,...,y_m\} Y={y1,y2,...,ym},n和m表示视频X和Y的帧数量,定义X和Y的帧级特征为 f θ ( X ) = { f θ ( x 1 ) , f θ ( x 2 ) , . . . , f θ ( x n ) } f_\theta(X)=\{f_\theta(x_1),f_\theta(x_2),...,f_\theta(x_n)\} fθ(X)={fθ(x1),fθ(x2),...,fθ(xn)} f θ ( Y ) = { f θ ( y 1 ) , f θ ( y 2 ) , . . . , f θ ( y m ) } f_\theta(Y)=\{f_\theta(y_1),f_\theta(y_2),...,f_\theta(y_m)\} fθ(Y)={fθ(y1),fθ(y2),...,fθ(ym)}

Temporal Alignment Loss

作者采用经典的DTW作为时序对齐损失,通过利用时间视频对齐作为借口任务来探索DTW用于自监督视频表示学习。
给定两个输入KaTeX parse error: Expected 'EOF', got '}' at position 12: f_\theta(X)}̲和f_\theta(Y)},计算距离矩阵 D ∈ R n ∗ m D∈R^{n*m} DRnm,其中每个元素 D ( i , j ) = ∣ ∣ f θ ( x i ) − f θ ( y i ) ∣ ∣ 2 D(i,j)=||f_\theta(x_i)-f_\theta(y_i)||^2 D(i,j)=fθ(xi)fθ(yi)2。DTW通过找到D中的最小损失路径来计算X和Y的对齐损失。
d t w ( X , Y ) = m i n A ∈ A n , m < A , D > dtw(X,Y)=min_{A∈A_{n,m}}<A,D> dtw(X,Y)=minAAn,m<A,D> (1)
其中 A n , m ⊂ 0 , 1 n × m A_{n,m}\subset {0,1}^{n\times m} An,m0,1n×m,是一个所有可能的对齐矩阵的集合,对应于从D的左上角到右下角的路径。 A ∈ A n , m A\in A_{n,m} AAn,m是一个景点的对齐矩阵,如果X中的 x i x_i xi与Y中 y j y_j yj对齐,则令A(i,j)=1。
r ( i , j ) = D ( i , j ) + m i n { r ( i − 1 , j ) , r ( i , j − 1 ) , r ( i − 1 , j − 1 ) } r(i,j)=D(i,j)+min\{r(i-1,j),r(i,j-1),r(i-1,j-1)\} r(i,j)=D(i,j)+min{r(i1,j),r(i,j1),r(i1,j1)} (2)
解决公式(2)中累加距离函数可以使用动态规划算法计算DTW。
由于公式(2)中的min不可微,因此难以将其用于优化网络结构中。因此作者利用了DTW的一个continuous relaxation版本,即Soft-DTW。在Soft-DTW中,将min操作使用 m i n γ min^\gamma minγ代替。
m i n γ { a 1 , a 2 , . . . , a n } = − γ l o g ∑ i = 1 n e r − a i min^\gamma\{ a_1,a_2,...,a_n\} = - \gamma log\sum_{i=1}^n e^ {\frac r {-a_i}} minγ{a1,a2,...,an}=γlogi=1neair (3)
γ > 0 \gamma>0 γ>0是一个平滑参数,Soft-DTW通过找到D中的soft-minimum代价路径返回X和Y中的对齐损失,可以由公式(4)表示:
d t w γ ( X , Y ) = m i n A ∈ A n , m γ < A , D > dtw^\gamma (X,Y)=min_{A\in A_{n,m}}^\gamma <A,D> dtwγ(X,Y)=minAAn,mγ<A,D> (4)
由于当 γ \gamma γ接近0时,平滑的 m i n γ min\gamma minγ算子收敛到离散的 m i n 1 min 1 min1,所以当 γ \gamma γ接近0时,软DTW产生与DTW相似的结果。此外,虽然使用 m i n γ min\gamma minγ不会使目标凸起,但它确实有助于优化,使梯度平滑,并提供更好的优化景观。

Temporal Regularization

因为DTW衡量D中的最小代价路径,仅仅优化DTW会导致微不足道的解决方案,即D中的所有元素都会接近0。换句话说,X和Y中的帧会被映射到映射空间的一个小簇。为了避免这种情况,作者添加了一个时间正则化,将其分别用在 f θ { X } f_\theta \{X\} fθ{X} f θ { Y } f_\theta \{Y\} fθ{Y}上。
作者采用Inverse Difference Moment作为正则项,由公式(5)表示。
I ( X ) = ∑ i = 1 n ∑ j = 1 n W ( i , j ) S X ( i , j ) I(X)=\sum_{i=1}^n \sum_{j=1}^nW(i,j)S_X(i,j) I(X)=i=1nj=1nW(i,j)SX(i,j)
W ( i , j ) = 1 ( i − j ) 2 + 1 W(i,j)=\frac 1 {(i-j)^2+1} W(i,j)=(ij)2+11 (5)
S X ∈ R n × n S_X \in R^{n \times n} SXRn×n f θ ( X ) f_\theta(X) fθ(X)的自相似矩阵,最大化公式(95)鼓励X中时间上邻近的帧被映射到映射空间上邻近的点。而且,作者是将IDM在每个(视频)序列上分开使用。为了将公式(5)用作损失函数,作者将最大化转换为最小化:
I ‾ ( X ) = ∑ i = 1 n ∑ j = 1 n W ‾ ( i , j ) ( − D X ( i , j ) ) \overline I(X)=\sum_{i=1}^n \sum_{j=1}^n\overline W(i,j)(-D_X(i,j)) I(X)=i=1nj=1nW(i,j)(DX(i,j))
W ‾ ( i , j ) = 1 ( i − j ) 2 + 1 \overline W(i,j)=\frac 1 {(i-j)^2+1} W(i,j)=(ij)2+11 (6)
其中 D X ∈ R n × n D_X \in R^{n \times n} DXRn×n f θ ( X ) f_\theta(X) fθ(X)的自距离矩阵,公式(6)鼓励视频X时间上接近的帧被映射到映射空间中附近的点。
但是,作者发现在上面的IDM正则化中,它使用相同的方式对待时间上近的帧和远的帧。在公式(5)中它最大化时间上距离远的帧之间的相似度尽管只有很小的权重。在公式(6)中,它仍然最大化时间上距离近的帧距离,尽管具有较小的权重。因此作者为时间上靠近和远离的帧提出了单独的术语——Contrastive-IDM:
I ∗ ( X ) = ∑ i = 1 n ∑ j = 1 n y i j W ‾ ( i , j ) m a x ( 0 , λ − D X ( i , j ) ) + ( 1 − y i , j W ( i , j ) D X ( i , j ) I^*(X)=\sum_{i=1}^n \sum_{j=1}^n y_{ij}\overline W(i,j)max(0,\lambda -D_X(i,j))+(1-y_{i,j}W(i,j)D_X(i,j) I(X)=i=1nj=1nyijW(i,j)max(0,λDX(i,j))+(1yi,jW(i,j)DX(i,j) (7)
y i j = { 1 , ∣ i − j ∣ > σ 0 , ∣ i − j ∣ ⩽ σ y_{ij}= \left\{ \begin{matrix} 1,|i-j|>\sigma \\ 0,|i-j| \leqslant \sigma \\ \end{matrix} \right. yij={1ij>σ0ijσ
σ是用于分离时间上远离的帧和时间上距离近的帧的窗口大小, λ \lambda λ是边距。Contrastive-IDM鼓励时间上距离近的帧映射在embeddings空间上邻近点;同时当它们之间的距离小于嵌入空间中的边距λ时,惩罚时间上远离的帧

Final Loss

L ( X , Y ) = d t w γ ( X , Y ) + α ( I ∗ ( X ) + I ∗ ( Y ) ) L(X,Y)=dtw^\gamma (X,Y)+\alpha (I^*(X)+I^*(Y)) L(X,Y)=dtwγ(X,Y)+α(I(X)+I(Y)) (8)
对准损失和正则化都是可微分的,并且可以使用反向传播来优化

结论

1、引入了一种新的自监督方法,通过将视频作为一个整体进行时间对齐,利用帧级和视频级线索来学习视频表示。
2、采用经典DTW作为时间对齐损失,同时提出一个新的时间正则化,两个组件互利。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秃头嘤嘤魔

感谢厚爱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值