CVPR2016之A Key Volume Mining Deep Framework for Action Recognition论文阅读(视频关键帧选取)

本文介绍了一种基于CVPR2016的深度学习框架,用于视频行为识别的关键帧选取。通过多示例学习方法选择关键帧,结合EM-like循环和SVM进行instance标签预测,优化神经网络进行迭代训练。同时,提出了一种非监督的key volume推荐方法,改进edgebox技术以检测运动区域,提升关键帧的选取概率。整个框架同时实现了关键帧挖掘和行为分类,达到了 state-of-art 的效果。
摘要由CSDN通过智能技术生成

该论文的主要思想是从视频中选取关键的帧卷(frame volume)用来行为识别。
该文章的意图是通过对视频中关键帧进行选取,减少与视频表达内容不相关的视频帧,实现视频中行为识别准确率的提升。
该文章主要从两个方面进行阐述:1、如何选取关键帧2、如何检测并框住人体动作行为以便用来识别
下面我讲从两个方面阐述这个问题。

如何选取关键帧

关键帧的选取采用了多示例学习的方法(multiple-instance learning),多示例学习是区别于监督学习、半监督学习以及非监督学习的一种方法。多示例学习有多种形式,一般分为如下三种:instance-space paradigm,bag-space paradigm the embedded-space paradigm.其中,多示例学习是以包(bag)的形式存在,其主要目的是对bag的类型进行分类。传统的监督学习是对example进行标记(在多示例学习中成为instance),每个instance对应一个label。而多示例学习则是每一个包对应一个label,而包里面的instance是没有label的。
在该论文采用的多示例学习是instance-space paradigm。而由于bag中的instance不含有label,因此一般需要有前提条件才能使用该方法。instance-space有两种假设条件:一种是SMI(Sttandard MI)假设,另一种是Collective assumption 假设。

该思想来自于论文Multiple Instance Classification:review,taxonomy and comparative study

该方法的假设内容是:标记为正的bag中至少含有一个instance的label为正,标记为负的bag的instance的label全部为负。因此,判断一个包的label是正还是负,通过如下公式可计算:这里写图片描述
其中f(x)是样本(instance)标签的正负。
既然instance没有标签,那么label的正负如何得到?
在这篇论文中,使用了EM-like loop的方法。EM方法是一种机器学习方法,同样也是处理样本label缺失型的分类问题。在这里,我们参考了一篇论文中的方法,这篇论文是

Support Vector Machines for Multiple-Instance Learning

该论文利用SVM对样本进行标记,采用的是EM方法。这里粘贴该方法的伪代码:

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值