论文浏览(48) Online Learnable Keyframe Extraction&Application with Semantic Word Vector in Action Recogn


0. 前言

  • 论文名称:Online Learnable Keyframe Extraction in Videos and its Application with Semantic Word Vector in Action Recognition
  • 相关资料:
  • 论文基本信息
    • 领域:视频理解
    • 作者单位:加拿大 University of Alberta
    • 发表时间:2020.9

1. 要解决什么问题

  • 一般视频理解相关网络的输入数据是若干帧尺寸相同的图片。
    • 这种类型的输入存在一些问题:相邻帧可能存在大量的数据冗余,视频理解相关网络的模型大,需要的算力多。
  • 解决上面所述问题的一种方案是使用“关键帧”的思想
    • 即在输入视频中提取关键帧,对关键帧执行行为识别等任务。
  • 之前关于“关键帧”的解决方案都存在一些问题:
    • 第一,已有方法的关键帧选取都是人工手动选择的。
    • 第二,对于变化很大的动作,可能分类效果不佳。
    • 第三,需要一个非常复杂的方法来确认提取哪些帧作为输入。
    • 第四,都不是Online的方法(比如,手工选择关键帧)

2. 用了什么方法

  • 提出了 Online Keyframe extraction module(OKFEM)
    • 本文所有方法的核心就是提取关键帧,而本模块就是在线提取关键帧。
    • Motion Submodule:
      • 首先通过ResNet+DCN获取每帧图片的信息,相邻帧之间的信息相减得到 motion information(即 r(t)),类似于光流的原理。
      • 之后计算r(t)与一个阈值矩阵TH的差值,得到最终得分s(t),根据得分来确定当前帧是不是关键帧。注意,得分应该是矩阵累加和。
    • Appearance Submodule
      • 每一帧的appearance信息是通过:原始帧信息与DCN特征图累加,并经过卷积得到。
      • 相邻帧的appearance累加,得到当前帧的最终appearance信息。
      • 最终也是通过 Motion Submodule 中的关键帧选择结果,来确定是否将当前帧的 appearance 信息用于后续网络中。
    • image_1ejp0lnvs1o4s10mg16cp1udq16kq9.png-164.3kB
  • 训练 OKFEM 需要不一样的数据集与损失函数
    • 损失函数的形式为:image_1ejp2eav26pj1km91li61djuns5m.png-11.1kB
    • 其中,image_1ejp2f2n4o9sk5tufm1gf9s0p13.png-4.9kB,Y表示GT关键帧。
    • α \alpha α β \beta β的作用是平衡“最小化损失函数”和“最大化关键帧得分”,前者控制了关键帧选取的准确率,后者控制了要选择多少关键帧。这两个数值时根据经验得到的,属于超参数。
  • 行为识别网络
    • 注意,OKFEM 模块是在 Video summarization 数据集上训练的,直接用在 action recognition 上。
    • OKFEM 得到的 motion 信息与 appearance 信息可作为普通行为识别网络的双流输入。
    • image_1ejp357g519kp1mm6kn814idi2j1g.png-84.8kB
  • 行为识别中用到了 ITTS(iterative train/test strategy) 模块,引入了 W2V 的思想。
    • ITTS 模块(即上图中虚线部分)以分类模型以及对应行为类别的W2V作为输入(猜测就是两个特征CONCAT一下),经过两层FC得到一个特征(这个特征的尺寸与W2V的尺寸相同)。
    • 猜测W2V每一个行为类别对应一个vector,FC2的输出就是新的W2V(就是论文中提到的 refined W2V)。
    • 训练过程中,更新过程如下图:核心就是用FC2的数值更新对应的w2v,连续判断3次为同一类别时结束。image_1ejp50tomig114n65pgfo91m5c3u.png-117.5kB
    • 测试过程就是对每一个行为类别分别计算,取最大值image_1ejp53o3b1unr1out1ojgamf10tb4b.png-131kB

3. 效果如何

  • 通过实验,选择 OKFEM 中 α β \alpha \beta αβ 的取值
    • image_1ejp3ifarll3j0c37u7ggjjj2a.png-79.7kB
  • 做实验验证提取关键帧的作用
    • image_1ejp3h5kp1t0a6e9jc21o7jtha1t.png-102.4kB
  • 通过实验证明提取关键帧以及W2V的作用
    • image_1ejp3j95517p8p741ne0alfrhk2n.png-104kB
  • OKFEM 模块在 video summarization 中效果也不错
    • image_1ejp3k5hk19b71dnj10io12kj1o8534.png-127.6kB
  • 在行为识别中,效果也特别好
    • image_1ejp3l2e91fdt147f6qi15sa1o6f3h.png-133.8kB

4. 还存在什么问题&有什么可以借鉴

  • OKFEM 模块看起来效果不错,但真正用于online应用中,恐怕效果不会好,毕竟使用的是ResNet+DCN的结构,不过值得尝试。

  • 起始可以了解一下 video summarization 这个领域。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页