CVPR2019 action detection 动作检测论文 two-in-one算法学习笔记

最新推荐文章于 2024-06-26 09:39:41 发布

One__Way

最新推荐文章于 2024-06-26 09:39:41 发布

阅读量1.7k

点赞数 1

分类专栏：图像处理 deep learning

本文链接：https://blog.csdn.net/wangweiwells/article/details/100165106

版权

deep learning 同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

图像处理

7 篇文章 1 订阅

订阅专栏

Dance with Flow: Two-in-One Stream Action Detection

学习时,别忘了总是要问自己一个为什么

论文

文章: Dance with Flow: Two-in-One Stream Action Detection
连接: https://arxiv.org/abs/1904.00696

简介

Two-in-One Stream Action Detection (以下简称 two-in-one) 提出了一种新layer 从而结合 RGB图像与optical-flow 图像.

motion condition layer 从 of图像中提取动作信息
motion modulation layer 利用mcl层信息来生成调制RGB特征的变换参数

实验证实利用 motion condition 去调制 RGB特征可以提高检测的准确率.在网络参数比soa少一般参数的情况下,仍达到了很高的正确率.
使用的数据集:

UCF101-24, UCFSports and J-HMDB.

方法

1. 主体

Two-in-One 网络结构极其简单.

motion condition layer 从光流图中提取先验条件信息,再把条件信息传入到modulation layer 进行特征融合.
可以看出来想法其实很简单:

提 optical flow 的特征
融合进RGB特征里

没了

所以,这里可以抛出第一个疑问, 为什么optical flow 经过几层卷积提特征就可以得到想要的prior condition, 并称这种特征层叫motion condition layer?

2. motion condition

我认为本文最好的点有两个:

第一个就在于提出motion condition. 因为它给一些模棱两可的图方向性的指引,他会guide 模型去pay more attention on what moves. 如图所示

本质的讲,其实就是更好的提取了optical flow 中包含的时序性的,动态的信息. 相当于motion condition 提供了动作的attention, 如果attention在object的上方区域,就代表了object的移动趋势是向上的,如果attention在object的下方,代表了object的移动趋势是向下的. 模型通过学习这额外的attention,就可以更好的预测动作.所以这是有利于对action的分类

第二个我认为在于transform 映射,怎样把optical flow 中有用的信息映射到 rgb 特征中

3. 算法

Motion condition layer
$(L^{\mapsto},S^{\mapsto})= D^{\mapsto}_{\theta}(I^{rgb}|\Psi)$
$\Psi=MC(I^{0f})=MC((I^{of_x},I^{of_y}))$
$\Psi$ 视为 $I^{of}$ 中提取的先验信息, $L^{\mapsto}, S^{\mapsto}$ 可以分别视为合并信息之后的location 输出和 class 输出, $D^{\mapsto}_{\theta}$ 则可以视为合并的网络.
Motion modulation layer
$M^2(F^{rgb})=\beta\odot F^{rgb}+\gamma$
我们的目的其实是从 $\Psi$ 中学习仿射变换的参数 $(\beta,\gamma)$ ,然后图一中的调制模型部分 $M^2$ 可视为对rgb图像 $F^{rgb}$ 的映射变换.
这种modulation layer 可以加在各个bottom layer的后面.