该论文的主要思想是从视频中选取关键的帧卷(frame volume)用来行为识别。
该文章的意图是通过对视频中关键帧进行选取,减少与视频表达内容不相关的视频帧,实现视频中行为识别准确率的提升。
该文章主要从两个方面进行阐述:1、如何选取关键帧。2、如何检测并框住人体动作行为以便用来识别
下面我讲从两个方面阐述这个问题。
如何选取关键帧
关键帧的选取采用了多示例学习的方法(multiple-instance learning),多示例学习是区别于监督学习、半监督学习以及非监督学习的一种方法。多示例学习有多种形式,一般分为如下三种:instance-space paradigm,bag-space paradigm the embedded-space paradigm.其中,多示例学习是以包(bag)的形式存在,其主要目的是对bag的类型进行分类。传统的监督学习是对example进行标记(在多示例学习中成为instance),每个instance对应一个label。而多示例学习则是每一个包对应一个label,而包里面的instance是没有label的。
在该论文采用的多示例学习是instance-space paradigm。而由于bag中的instance不含有label,因此一般需要有前提条件才能使用该方法。instance-space有两种假设条件:一种是SMI(Sttandard MI)假设,另一种是Collective assumption 假设。
该思想来自于论文Multiple Instance Classification:review,taxonomy and comparative study
该方法的假设内容是:标记为正的bag中至少含有一个instance的label为正,标记为负的bag的instance的label全部为负。因此,判断一个包的label是正还是负,通过如下公式可计算:
其中f(x)是样本(instance)标签的正负。
既然instance没有标签,那么label的正负如何得到?
在这篇论文中,使用了EM-like loop的方法。EM方法是一种机器学习方法,同样也是处理样本label缺失型的分类问题。在这里,我们参考了一篇论文中的方法,这篇论文是
Support Vector Machines for Multiple-Instance Learning
该论文利用SVM对样本进行标记,采用的是EM方法。这里粘贴该方法的伪代码: