Dynamic Scene Graph Generation via Anticipatory Pre-training论文阅读笔记

  • Motivation
    在这里插入图片描述

过去的方法只是在特征维度上对时间信息进行建模,这是一种相对笼统的方式,因为它不能明确的捕捉到视觉关系在时序上的相关性。人类可以轻易的从过去已有的相关关系推出当前帧的视觉关系,但这种视觉推导是具体于时序关系的。因此我们需要解决一下两个问题:1.空间信息和时间信息是高度缠绕的,这不利于捕捉时序上具有关联性的关系;2.AG数据集不是全标注的,仅有某几个关键帧的标注。

  • Contribution

提出了针对视频场景图的anticipatory(?不知道怎么翻译)预训练范式,该范式能够在task-level上显式地对视觉关系进行时序相关性建模;

  • Method
    在这里插入图片描述

对于第 t t t帧图篇 I t I_{t} It,首先使用预训练检测器来检测第 t t t帧及之前帧的物体 b b o x bbox bbox框和类别。之后使用空间编码器来提取每一帧中物体对的视觉特征。然后是通过渐进的时间编码器来建模不同帧中物体对的长时时序相关度。需要注意的是,空间编码器和渐进式时序编码器是经过预训练的,对于第 t t t帧来说,它的渐进式时序特征来自前 t − 1 t-1 t1帧,在第 t t t帧,我们结合空间编码器提取空间特征和前 t − 1 t-1 t1帧的渐进式时序特征,通过一个全局时序编码器来提取当前帧的特征,并预测当前帧的物体对之间的关系信息,全局时序编码器是在微调阶段进行训练的。

在这里插入图片描述

首先使用目标检测器得到第 t t t帧第 i i i个物体的特征信息,包括视觉、位置、语音信息:
f t , i = [ M o v t , i , ϕ ( b t , i ) , s t , i ] f_{t, i}=[\textbf{M}_{o}v_{t, i}, \phi(b_{t, i}), s_{t, i}] ft,i=[Movt,i,ϕ(bt,i),st,i]
然后将该帧的所有物体看作一个特征序列,作为空间编码器的输入:
X s p a , t 0 = f t , 1 , f t , 2 , . . . , f t , N ( t ) X_{spa, t}^{0}={f_{t, 1}, f_{t, 2}, ..., f_{t, N(t)}} Xspa,t0=ft,1,ft,2,...,ft,N(t)
之后得到物体 i i i和物体 j j j之间关系的特征表示:
r t , i j = [ f ^ t , i , f ^ t , j , M u u t , i j ] r_{t, ij} = [\hat{f}_{t, i}, \hat{f}_{t, j}, M_{u}u_{t, ij}] rt,ij=[f^t,i,f^t,j,Muut,ij]
渐进式的时序编码器包括一个短时编码器和一个长时编码器,这是因为只使用长序列作为输入虽然能同时解决短时和长时的依赖问题,但会大大增加模型的参数。

短时编码器只对当前帧的前 γ \gamma γ帧进行处理,它以具有相同物体对的关系特征作为输入,并使用下式来计算不同帧间物体对的匹配分数:
ϵ = min ⁡ ( I o U ( o t ′ , i , o t ′ − 1 , i ′ ) , I o U ( o t ′ , j , o t ′ − 1 , j ′ ) ) \epsilon = \min (IoU(o_{t', i}, o_{t' - 1, i'}), IoU(o_{t', j}, o_{t' - 1, j'})) ϵ=min(IoU(ot,i,ot1,i),IoU(ot,j,ot1,j))
设置阈值 ϵ > 0.8 \epsilon > 0.8 ϵ>0.8为匹配成功。

之后构造短时和长时的特征序列:
A i j = r t − γ , i j , . . . , a t − 1 , i j U i j = r t − λ , i j , . . . , a t − γ , i j A_{ij}={r_{t-\gamma, ij}, ..., a_{t - 1, ij}}\\ U_{ij}={r_{t-\lambda, ij}, ..., a_{t - \gamma, ij}} Aij=rtγ,ij,...,at1,ijUij=rtλ,ij,...,atγ,ij
短时编码器的输入为:
X s h o r t , i j ( 0 ) = [ A i j + Z s , C i j ] X_{short, ij}^{(0)}=[A_{ij}+Z^{s}, C_{ij}] Xshort,ij(0)=[Aij+Zs,Cij]
其中 Z s Z^{s} Zs为帧的时序位置编码, C i j C_{ij} Cij是对物体对的语义提取信息。

长时编码器的输入为:
X l o n g , i j ( 0 ) = { f θ ( U i j ) , ϕ ( X ^ s h o r t , i j ) } + Z l f θ ( U i j ) = W θ ( φ ( r t − λ , i j ) ⊗ ⋯ ⊗ φ ( r t − 1 , i j ) ) X_{long, ij}^{(0)}=\{f_{\theta}(U_{ij}), \phi(\hat{X}_{short, ij})\} + Z^{l}\\ f_{\theta}(U_{ij})=W_{\theta}(\varphi(r_{t-\lambda, ij})\otimes \cdots \otimes \varphi(r_{t-1, ij})) Xlong,ij(0)={fθ(Uij),ϕ(X^short,ij)}+Zlfθ(Uij)=Wθ(φ(rtλ,ij)φ(rt1,ij))
ϕ \phi ϕ M L P MLP MLP λ ≫ γ \lambda \gg \gamma λγ ⊗ \otimes 代表叉积。

  • 训练策略

预训练阶段仅训练有标签数据:
y t , i j = C l a s s i f i e r s p r e ( x ^ l , i j ) L p r e ( y t , i j , Y + , Y − ) = ∑ p ∈ Y + ∑ q ∈ Y − max ⁡ ( 0 , 1 − y t , i j p + y t , i j q ) y_{t, ij}=Classifiers_{pre}(\hat{x}_{l, ij})\\ L_{pre}(y_{t, ij}, Y^{+}, Y^{-})=\sum_{p \in Y^{+}} \sum_{q \in Y^{-}} \max(0, 1 - y_{t, ij}^{p} + y_{t, ij}^{q}) yt,ij=Classifierspre(x^l,ij)Lpre(yt,ij,Y+,Y)=pY+qYmax(0,1yt,ijp+yt,ijq)
微调阶段使用空间编码器提取当前帧的空间特征,并一次为基础提取关系特征,然后按照短时编码器的结构经过若干层Multi-Head Self-Attention结构得到用于微调分类的特征。推断的时候仅使用微调时的分类器。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值