论文浏览(21) SCSampler: Sampling Salient Clips From Video for Efficient Action Recognition

最新推荐文章于 2021-04-15 01:24:41 发布

清欢守护者

最新推荐文章于 2021-04-15 01:24:41 发布

阅读量942

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/107373419

版权

98 篇文章 21 订阅

订阅专栏

普通行为识别数据集一般都是使用 trimmed video，其中包含一个待检测的动作。
现实世界中的真实情况，与普通数据集完全不同：
- 待检测的视频往往比较长（如几分钟，属于 untrimmed video）。
- 在较长时间的视频中，有用的视频片段持续时间较短，无用的的视频片段很多。
行为识别模型现状
- 大多数行为识别模型都需要输入一个定长的帧序列。
- 视频分类一般也就是分为若干个clip，分别进行分类后求平均。对于短视频来说，这种方法还是非常合理的。但对于长视频（如大于1小时）分类来说，这种方法就非常不合理了。

提出了SCSample(Salient Clip Sampler)
- 基本思路就是选择长视频中有效的clip分别计算预测并求平均，忽略一些无效的clip。
Sampler的目标函数
- action classifier：就是作为分类器来训练。
- saliency ranker：因为看过 relative attributes，所以这一部分看起来很熟悉。
Sampler使用的结构（没细看）
- Visual Sampler
  - 大概就是利用MPEG-4或H264编码后的结果作为输入。
  - 编码后的视频分为关键帧以及关键帧后续的motion displacement (MD) 与 RGB-residual (RGB-R)。
  - 网络结构就用2D CNN即可，如resnet18，shufflenet等。
- Audio sampler
  - 对音频进行处理。

这个思路是用在对 untrimed video 进行 action recognition 上，也只能用在 offline 应用上。不知道online方面有什么能够参考的。

关注

专栏目录