论文浏览(46) SpeedNet: Learning the Speediness in Videos


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:视频理解
    • 作者单位:Google
    • 发表时间:CVPR 2020

1. 要解决什么问题

  • 预测视频中移动物体的速度。
    • 在现实世界中,一个人很容易就能分辨出视频是在快进还是普通速度还是慢放,因为我们都有一些先验知识,即稳重提到的 typical dynamics and natural rate of motion。
    • 预测的是一个相对速度(正常速度播放还是快进还是慢放),而不是绝对速度。
      • 这比"直接预测视频的回放速度"更好,因为:我们的根本目标是视频中的动作是否是自然的;这更符合人的习惯。
  • SpeedNet 期望解决问题:
    • 从一个FPS为L的视频中提取L帧图片作为输入,我们判断这L帧图片相当于真实世界中1s还是2s,即normal speed还是sped up。

2. 用了什么方法

  • motivation(为什么要研究)
    • 是否有可能训练一个模型来判断物体移动是 normal speed of sped up,这类模型能够学到怎样的特征。
    • 这类模型有什么样的应用。
  • 预测的 speediness 与 motion magnitude 有较大区别。
    • motion magnitude 我猜测意思就是每一帧的pixels变化。这个性能指标意义不是很大,如下图的例子中,一个人按普通速度行走,距离摄像头远则 motion magnitude 小,距离摄像头近则 motion magnitude 大。
    • 是不是光流的意思?说来惭愧,光流的没仔细查过。
    • image_1eivb7s7118pe1leoph1qbhk57m.png-205kB
  • 训练细节:
    • 用了 self-supervised 的方法训练,即不需要提供额外标签。(但又不完全是无监督学习)
    • 训练参数构建:
      • 使用二分类训练,包括normal速度(即1x)以及sped up速度(即2x)
      • Spatial augmentations:输入图片的尺寸不固定,在 [64, 336] 之间随机选择。
      • Temporal augmentations:即normal/sped up数据不是固定的sample rate。
        • 假设sample rate为f,则每一帧的skip rate为 1-1/f
        • normal的f取值范围为 [1, 1.2]
        • sped up的f取值范围是 [1.7, 2.2]
      • Same-batch training:每次取3T的视频帧,分别构建一个normal样本和一个sped up样本。
        • 之前也有方法可以用模型来得到视频的速度,但效果很差,猜测原因是存在 artificial cues。
  • SpeedNet 整体结构
    • 使用了 S3D-G 结构,主要修改在于 temporal 纬度的 maxpooling 均为一。
    • 最后在spatial 和 temporal 纬度进行 global avg,得到1024维的特征。
    • image_1eivoibpe44basp15ia8hobb813.png-131.6kB
  • Adaptive video speedup
    • 大概意思就是,根据speednet的结果自动调整视频的speed。
    • 作用:自动调整速度, 看一个视频中的内容,无用的地方直接跳过,有用的地方慢点播放。
    • image_1eivpck5dh54voub1jmah14nn2a.png-306.3kB
  • 得到的 spatio-temporal features 的作用:
    • 作为其他任务训练的 pre-trained weights,替代 kinetics 预训练权重或随机初始化权重。
    • 用于视频检索。

3. 效果如何

  • SpeedNet 的训练结果
    • 即在 Kinetics 上训练,在NFS上预测,效果最好的就是三个都有的情况。
    • 三个方法就是在训练细节中提到的 spatial augmentations/temporal augmentations/same-batch training。
    • image_1eivom0qk1ingbiq1fk0bhe181c1g.png-101.3kB
  • 对不同速率的视频通过speednet计算
    • image_1eivpbidb1a0adfj58jjo211571t.png-234.8kB
  • 让别人看看,adaptive video speedup 前后的视频哪个更好(就是人来判断,更喜欢哪个)
    • image_1eivpe2v71o1i13a0rpd104v8qm2n.png-55.5kB
  • 迁移学习的结果
    • 在 self-supervised 特征中性能最好(即中间这些),但是比kinetics和imagenet都差一些。
    • image_1eivpijdn1tb31vrahbs2cd1etj34.png-93.8kB

4. 还存在什么问题&有什么可以借鉴

  • 这个 speediness 的概念比较模糊。

  • 与oops哪个工作非常类似,切入点不一样,内容感觉差不多。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页