论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition


0. 前言


1. 要解决什么问题

  • 普通行为识别数据集一般都是使用 trimmed video,其中包含一个待检测的动作。
  • 现实世界中的真实情况,与普通数据集完全不同:
    • 待检测的视频往往比较长(如几分钟,属于 untrimmed video)。
    • 在较长时间的视频中,有用的视频片段持续时间较短,无用的的视频片段很多。
  • 行为识别模型现状
    • 大多数行为识别模型都需要输入一个定长的帧序列。
    • 视频分类一般也就是分为若干个clip,分别进行分类后求平均。对于短视频来说,这种方法还是非常合理的。但对于长视频(如大于1小时)分类来说,这种方法就非常不合理了。

2. 用了什么方法

  • 提出了SCSample(Salient Clip Sampler)
    • 基本思路就是选择长视频中有效的clip分别计算预测并求平均,忽略一些无效的clip。
    • image_1ed9eqaf5ba31aq1t8v59o1cc09.png-166.8kB
  • Sampler的目标函数
    • action classifier:就是作为分类器来训练。
    • saliency ranker:因为看过 relative attributes,所以这一部分看起来很熟悉。
      • image_1ed9ii4j211073crnnd16skqtlm.png-8.8kBimage_1ed9ij2aj1eqd12g69gr1psi1fd413.png-9.4kB
  • Sampler使用的结构(没细看)
    • Visual Sampler
      • 大概就是利用MPEG-4或H264编码后的结果作为输入。
      • 编码后的视频分为关键帧以及关键帧后续的motion displacement (MD) 与 RGB-residual (RGB-R)。
      • 网络结构就用2D CNN即可,如resnet18,shufflenet等。
    • Audio sampler
      • 对音频进行处理。

3. 效果如何

  • 在Sports1M上性能有较大提升(提升了7%),在Kinetics上倒是提升并不明显。
  • 除了accuracy上的提升外,训练时间也减少了很多(特别是在Sports1M上)
  • 具体结果如下图所示
    • image_1ed9je10e17r1iqg111c2mn15lu1g.png-267.5kB

4. 还存在什么问题

  • 这个思路是用在对 untrimed video 进行 action recognition 上,也只能用在 offline 应用上。不知道online方面有什么能够参考的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值