DevNet:一个用于多媒体事件检测和证据重述的深度事件网络

 

 功能描述:给出一个用于测试的视频,DevNet不仅提供了时间标签,还提供了关键证据。

1.介绍

        原子概念识别主要是在静止图像中识别特定的物体和场景,或在5-10秒的短视频片段中识别简单的运动,多媒体事件检测处理的是更复杂的视频,这些视频包含不同场景中人类动作和物体的各种交互,通常持续几分钟甚至数小时。

        因此,一个事件是比一个概念更高层次的视频序列的语义抽象,通常由多个概念组成。

        例如,“市政厅会议”事件可以用多个对象(如人、讲台)、场景(如会议室)、动作(如谈话、会议)和声学概念(如演讲、鼓掌)来描述。除了检测语义事件外,在许多情况下,仅为视频分配一个事件标签是不够的,因为一个长时间的无约束视频可能包含很大的类内变化。除了提供单个事件标签外,许多用户也提供事件标签想知道为什么视频被认定为这个事件,即导致检测决定的关键证据。这个过程称为多媒体事件重新计算(MER)。

        尽管近年来针对事件检测和重新叙述问题提出了许多算法,但这些挑战尚未得到充分解决。最成功的事件检测方法仍然是聚集浅层手工视觉特征,如SIFT、MOSIFT,其次是特征池和传统分类器,如支持向量机(SVM)。然而,这种浅层特征和事件检测无法捕捉到无约束视频的高度复杂性和可变性。

        如图所示,空间定位的自行车车轮可能表明该视频是一个“尝试自行车戏法”事件,而背景窗口则不是。因此,不仅要定位时间证据,还要定位空间证据。然而同时为检索到的视频分配事件标签并提供时空关键证据并非易事,原因如下:首先,同一事件不同视频序列可能有戏剧性的变化。以上图为例,它可能发生在体育场、甚至是城市公园,这些地方的视觉特性可能非常不同。因此,很难利用严格的模板或规则来定位关键证据。其次,时空关键证据的收集和标注成本普遍极高。

        传统的全监督图像目标定位采用的真边界框信息进行训练,但不能扩展到视频事件记录中。与手工制做的特征相比,卷积神经网络(CNN)学习特征在各种计算机视觉任务中显示出巨大的潜力,在图像识别中具有最先进的性能,cnn的成功也揭示了多媒体事件检测和叙述问题。这促使将cnn应用于事件视频的检测和重述。

        所以提出了一个深度事件网络DevNet,可以同时检测高级别事件并本地化时序空间关键证据。为了减少有限的训练数据的影响,首先使用迄今为止最大额图像数据集ImageNet对DevNet进行预训练,然后通过调用网络传输图像级特征并训练一个新的视频级事件检测器。接下来,利用cnn的内在特性来生成一个时空显著性地图,而不需要额外的训练步骤。

2.步骤

        三个方向:事件检测、事件叙述和cnn.

2.1事件检测

        视频事件检测系统通常由以下步骤组成:特征提取、量化/池化和分类学训练。许多事件检测方法依赖于低级特征,如静态关键帧的SIFT和STIP和MOSIFT视频。最近,最先进的浅视频表示利用了密集点轨迹。它的特征向量是通过跟踪密集采样点来得到的。

2.2事件描述

        多媒体事件叙述的目的是找出视频中特有的鉴别部分。大多数现有的方法关注于时地域,应用物体和动作探测器或低水平的视觉特征来定位事件上的关键证据。训练一个视频级分类器,然后用它对关键帧或镜头进行排序。这些方法是基于这样一个假设:视频级的分类器可以区分正面和负面的例子,也可以用来区分信息镜头。因此,分类器可能会被视频中无处不在但缺乏信息的镜头所迷惑。为了克服这些局限性,将问题描述为一个多实例学习问题,旨在通过在训练过程中选择信息镜头或关键名来学习一个实例级事件检测和重新叙述模型。然而,这些方法只能局限于时间关键证据。

3.DevNet网络

        CNN包含9个卷积层和3个完全连接层。在这两部分之间,采用了空间金字塔池化成。因此,在缺乏足够的训练数据的情况下,很难获得一个有效的DevNet模型来进行事件检测。因此,首先使用ImageNet数据机对CNN进行参数初始化的预训练。这个预训练阶段的目的是学习一般的图像级特征。在对DevNet的参数进行微调后,应用单一的后向传递来识别同一视频中响应强烈的像素,作为事件叙述的时空关键证据。下图为DevNet基础框架。

3.1预训练

        先从深度CNN训练开始基于ILSVRC-2014数据集,包含1.2M训练图像,分为1000类,结构如上图所示。是使用Caffe,给定一个训练图像,然后将其短边缘调整为256像素。最后从调整大小的图像中随机提取固定大小的224x224个小块面饼用这些小块训练网络。

        对每个提取的patch进行图像均值减法、随机光照和对比度增强预处理。最后一个全连连接层的输出被输入到一个1000路的最大层,使用多项式logistic回归来定义损失函数,这等价于定义一个超过1000类的概率分布。对于所有层,使用ReLu作为非线形激活函数。使用的动量为0.9,权值衰减为0.0005的随机梯度下降来训练网络来克服过拟合,在前两个全连接层之后是一个退出层,退出率为0.5。所有层的学习率初始化为0.01,每过20个周期(共80个周期)学习率降低到当前学习率的十分之一。权重层配置为:conv64-conv192-conv384-conv384-conv384-conv384-conv384-conv384-conv384-full4096-full4096-full1000。在ILSVRC2014验证集上,网络的top-1/top-5分类误差为29.7%/10.5%。

3.2微调

        利用MED数据集中的训练视频数据作为目标数据,进一步调整参数。这是为了使在ImageNet数据集上预先训练的模型适应于视频事件检测任务。视频级微调的步骤如下:

首先:删除了softmax分类器和预训练网络的最后一个完全连接层,因为它是特定于ImageNet分类任务的。接下来,为了将图像级特征聚合到视频级表示中,使用跨图像最大池将同一视频中所有关键帧的第二层全连接层输出融合。然后使用c-way独立逻辑回归代替softmax损失,这里的c表示事件类的数量。为了处理阳性和阴性样本不平衡,采用随机抽取样本1:1的比例在微调过程中。

        经过微调,使用跨图像max-pooling后的视频级表示中的f,最后一个全连接层作为事件检测任务的特征。

。。。待完善

       

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值