CVPR2017行为识别中的关键帧检测网络AdaScan

最新推荐文章于 2024-05-24 08:32:23 发布

jk_algo

最新推荐文章于 2024-05-24 08:32:23 发布

阅读量4.9k

点赞数 2

分类专栏：行为识别文章标签：行为识别视频深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/small_ARM/article/details/78080936

版权

行为识别专栏收录该内容

6 篇文章 1 订阅

订阅专栏

今天阅读了该论文，获得一些启发，先对其进行记录，以防后面会遗忘。该论文的核心思想是我要在视频中去除一些冗余帧，提升视频行为的判断力，保留有用信息，去除无关信息。论文的网络图如下所示：

为何AdaptivePooling可以实现对关键帧的选取呢？

原因在于Adaptive Pooling的结构所在。下面将讲述核心结构Adaptive Pooling。经过Deep Network获得的Features经过Adaptive Pooling可以形成Pooled Vector。首先定义变量：

，指的是在视频X下，计算至t帧为止图片得到的pooled 向量。The Adaptive Pooling模块循环进行Pooling是需要两部操作。这两个操作通过下面两个式子表示。

其中变量

预测帧图像中含有信息的重要性。

变量

即t+1帧含有信息的重要性，即就是预测得到的变量。

表示Deep Network获得的t+1帧的特征。

第一个式子是获取该帧的重要性，第二个式子就是带有权重的Pooling。得到新的Pooled Feature，该Pooled Feature是对前t+1帧信息的整合。

下面是原文中的英文解释：

该方法是对时域的Feature进行Pooling,而不是限制在空域的Feature。根据帧的重要性设定权值，该帧含有的有用信息的可能性越大，权重越高，最后的PooledFeature获得的有用信息更多，无用信息更少。

那是什么函数呢？这是一个Adaptive的函数，那啥才是Adaptive的函数呢？？？

当然是神经网络。该函数用的神经网络很简单，就是一个MLP，多层感知器模型。该网络是三层全连接网络组成，简单速度快也有非线性的特性，且有自适应的特性。输入到网络的是当前pooled特征和下一帧特征的残差，用残差可以让网络explicitly关注之前没有看到的特征，进而决定是否对它Pool。

该网络的Loss函数：

该Loss会有助于选择区别性的帧，同时丢弃无用的帧。越大，选取的帧就越少。正则项起着重要的作用。至于这个Loss的内涵，不太理解，日后理解了会对其补充

网络通过反向传播，会优化MLP，进而优化，这样就使得在test的过程中，可以很好地选择关键帧，丢掉无用帧。

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
CVPR2017行为识别中的关键帧检测网络AdaScan

今天阅读了该论文，获得一些启发，先对其进行记录，以防后面会遗忘。该论文的核心思想是我要在视频中去除一些冗余帧，提升视频行为的判断力，保留有用信息，去除无关信息。论文的网络图如下所示：为何AdaptivePooling可以实现对关键帧的选取呢？原因在于Adaptive Pooling的结构所在。下面将讲述核心结构Adaptive Pooling。经过Deep Network获得的Fe
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。