CVPR2016之A Key Volume Mining Deep Framework for Action Recognition论文阅读（视频关键帧选取）

最新推荐文章于 2023-02-28 18:16:23 发布

jk_algo

最新推荐文章于 2023-02-28 18:16:23 发布

阅读量1.8k

点赞数 2

分类专栏：行为识别深度学习文章标签：行为识别视频多示例学习

本文链接：https://blog.csdn.net/small_ARM/article/details/78014272

版权

本文介绍了一种基于CVPR2016的深度学习框架，用于视频行为识别的关键帧选取。通过多示例学习方法选择关键帧，结合EM-like循环和SVM进行instance标签预测，优化神经网络进行迭代训练。同时，提出了一种非监督的key volume推荐方法，改进edgebox技术以检测运动区域，提升关键帧的选取概率。整个框架同时实现了关键帧挖掘和行为分类，达到了 state-of-art 的效果。

摘要由CSDN通过智能技术生成

该论文的主要思想是从视频中选取关键的帧卷（frame volume）用来行为识别。
该文章的意图是通过对视频中关键帧进行选取，减少与视频表达内容不相关的视频帧，实现视频中行为识别准确率的提升。
该文章主要从两个方面进行阐述：1、如何选取关键帧。2、如何检测并框住人体动作行为以便用来识别
下面我讲从两个方面阐述这个问题。

如何选取关键帧

关键帧的选取采用了多示例学习的方法(multiple-instance learning)，多示例学习是区别于监督学习、半监督学习以及非监督学习的一种方法。多示例学习有多种形式，一般分为如下三种：instance-space paradigm,bag-space paradigm the embedded-space paradigm.其中，多示例学习是以包(bag)的形式存在，其主要目的是对bag的类型进行分类。传统的监督学习是对example进行标记（在多示例学习中成为instance)，每个instance对应一个label。而多示例学习则是每一个包对应一个label，而包里面的instance是没有label的。
在该论文采用的多示例学习是instance-space paradigm。而由于bag中的instance不含有label，因此一般需要有前提条件才能使用该方法。instance-space有两种假设条件：一种是SMI（Sttandard MI)假设，另一种是Collective assumption 假设。

该思想来自于论文Multiple Instance Classification:review,taxonomy and comparative study

该方法的假设内容是：标记为正的bag中至少含有一个instance的label为正，标记为负的bag的instance的label全部为负。因此，判断一个包的label是正还是负，通过如下公式可计算：这里写图片描述
其中f(x)是样本(instance)标签的正负。
既然instance没有标签，那么label的正负如何得到？
在这篇论文中，使用了EM-like loop的方法。EM方法是一种机器学习方法，同样也是处理样本label缺失型的分类问题。在这里，我们参考了一篇论文中的方法，这篇论文是