[9]A Key Volume Mining Deep Framework for Action Recognition[2016CVPR]
之前介绍的文章很多都是不同的融合技巧,这一篇文章是从输入入手,提取关键帧进行检测。
大多数现有的深度框架同等地处理每一个视频片段,例如,空间 - 时间视频切片,并直接将视频标签分配给所采样的片段。 然而,在视频中,有歧义的动作可能在几个视频片段中稀疏地产生,并且大多数与标记的操作类别无关。 大量不匹配样本会阻止我们去学习重要的特点捕获重要的分类。
论文的重要思想就是在前向传递中,我们将一包视频段输入我们的网络,然后根据响应挖掘每个操作的关键视频片段; 在后向传递中,我们借助这些关键卷更新网络参数。文中核心在于关键视频段的判定方式。

[10]AdaScan: Adaptive Scan Pooling in Deep Convolutional Neural Networks for Human Action Recognition in Videos
这也是一个从关键帧提取入手的动作识别方案。
本文介绍两种基于关键帧提取的动作识别方法:AKeyVolumeMiningDeepFrameworkforActionRecognition与AdaScan。前者通过在网络的前向传播中输入一包视频片段并根据响应挖掘每个动作的关键视频片段;后者则提出了一种新的关键帧提取方案。
14万+

被折叠的 条评论
为什么被折叠?



