A Key Volume Mining Deep Framework for Action Recognition论文学习

Zhu W, Hu J, Sun G, et al. A Key Volume Mining Deep Framework for Action Recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:1991-1999.百度学术
这里写图片描述

1:思路:
通过挖掘视频中的对动作具有决定性的关键区域来提高action recognition的准确率,上图中框出的区域就是真实动作发生的关键区域。训练一个CNN网络来学习出这些区域。
主要贡献:

First, we propose Stochastic out to select key volumes from multiple modalities; 
Second,we design an effective yet simple unsupervised key volume
proposal algorithm to improve the probability that an input
bag contains key volumes.
首先,通过随机筛选选出一些可能的候选动作区域
然后通过一种简单的无监督学习算法来提高包含关键区域的概率

最终结果: (93.1%) UCF101数据库

The main contributions of this paper can be summarized
as follows: 
1) We propose an end-to-end deep framework to
simultaneously identify key volumes and do action classification. And we integrate the alternative optimization into
forward and backward stages of SGD training. 
2) We propose two novel techniques, i.e., Stochastic out and unsupervised key volume proposal to benefit the deep framework.

不同于以往的神经网络训练,我们从一段视频中截取了多个 3D volumes 作为神经网络的输入。经过 CNN 之后,每个 volume 会得到一个预测向量,表示该 volume 属于每一个动作类别的概率。这里写图片描述
i类视频中至少有一个 volume 在第 i 类的分类器的概率随着K越来越大而增大。

借鉴 Multiple Instance Learning 的思想,网络的 loss function 要求第 i 类视频中的所有volume在非 i 类的分类器上的响应较小;同时鼓励第i类视频中至少有一个 volume 在第 i 类的分类器上响应较高。

当网络训练到一定的程度之后,神经网络训练的 Forward 阶段对每个 volume 的打分可以用来挑选 key volume;这些 key volume 会在 Backward 阶段影响到神经网络参数的调整。使用 key volume 来更新网络参数避免了随机 volume 引入的噪声,从而得到更好地网络参数。

A:如何挑选key volume
这里写图片描述
正如这个假设所说,对于一个3D体输入,计算后通过N个二分类器,在N个类别上分别得到对应的概率,S是一个K×N大小的矩阵,假设有N=3共三个类别,每一个输入都在这三个类别上产生概率,假如素以第一类的概率最大,S可以是(0.8,1,0.1,2,0.1,3)
接着为了计算多类的loss,作者提出了一种计算方法,也很basic
这里写图片描述
方法很简单,对于输入向量X,选中其中某一个元素Xi的概率是:
这里写图片描述

主体框架如上图,在前向计算中,对每一个volume都计算得到分数,然后在当前视频的label对应的概率上使用stochastic out,而在其他节点上使用max out。
在反向传播时,我们根据记得算得到的key volume来更新网络参数。

网络训练方法:在实验中固定一个volume的大小K=6,依然假设这K帧的volume中总是包含一个key volume。
如果将筛选出的关键体展现出来:
这里写图片描述

each volume extend T consecutive frames in temporal dimension, where T is the fixed temporal size

最终性能:这里写图片描述

部分参考http://www.toutiao.com/i6297136389775426050/

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
deep residual learning for image recognition是一种用于图像识别的深度残差学习方法。该方法通过引入残差块(residual block)来构建深度神经网络,以解决深度网络训练过程中的梯度消失和梯度爆炸等问题。 在传统的深度学习网络中,网络层数增加时,随之带来的问题是梯度消失和梯度爆炸。这意味着在网络中进行反向传播时,梯度会变得非常小或非常大,导致网络训练变得困难。deep residual learning则使用了残差连接(residual connection)来解决这一问题。 在残差块中,输入特征图被直接连接到输出特征图上,从而允许网络直接学习输入与输出之间的残差。这样一来,即使网络层数增加,也可以保持梯度相对稳定,加速网络训练的过程。另外,通过残差连接,网络也可以更好地捕获图像中的细节和不同尺度的特征。 使用deep residual learning方法进行图像识别时,我们可以通过在网络中堆叠多个残差块来增加网络的深度。这样,网络可以更好地提取图像中的特征,并在训练过程中学习到更复杂的表示。通过大规模图像数据训练,deep residual learning可以在很多图像识别任务中达到甚至超过人类表现的准确性。 总之,deep residual learning for image recognition是一种利用残差连接解决梯度消失和梯度爆炸问题的深度学习方法,通过增加网络深度并利用残差学习,在图像识别任务中获得了突破性的表现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值