这篇论文,作者通过使用自监督方法来提升半监督的时间动作定位
- temporal-aware semi-supervised branch
- relation-aware self-supervised branch
semi-supervised branch:
Mean teacher
temporal feature shift
temporal feature flip
self-supervised branch:
masked feature reconstruction
clip-order prediction
Temporal-aware Semi-Supervised Branch
Teacher-student:
teacher模型使用EMA更新策略
对于labeled data,使用supervised loss
Unlabeled data,使用consistency loss (L2-loss)
对student的输入特征进行特征扰动
temporal feature shift:在feature map上沿着时间维度随机选择一些通道进行双向移动,作者随机选择μ通道(μ是超参数,μ/2的通道向前移动,μ/2的通道向后移动)
temporal feature flip:对特征进行水平翻转(作者说这样使得原始的proposal与翻转的视频特征之间能够很容易地一一对应,这里其实不太看明白为什么会对应)
Relation-aware Self-Supervised Branch
Masked feature reconstruction:随机mask掉一些时刻的特征,然后重构
Clip-order prediction:在随机打乱的feature map上预测正确的时间序列,在这篇论文中,作者使用两个随机打乱的特征序列进行重新排序
Experiments
与半监督方法对比
ablation
其中,-F为去掉F