Action Unit Memory Network for Weakly Supervised Temporal Action Localization 笔记

1.介绍

这篇文章是提出了一个动作单元记忆网络(AUMN),它的创新点我觉得是非常强的,作者也自己夸自己,说这篇文章是第一次用记忆网络来建模动作单元,网络内部的结构也是围绕动作单元来设计的,内容比较多,这里面肯定会有用得上的思想和设计。

每篇文章都会说一遍自己的动机,这篇文章的动机如下:

  • 实现定位完整性
  • 减轻背景干扰

提出的AUMN为了解决这两个问题,在内部设计了如下:

  1. 两个注意模块:自注意模块和交叉注意模块
  2. 三种有效的机制:多样性,同质性,稀疏性 (diversity, homogeneity and sparsity)

多样性是指动作单元之间是不同的,所以 memory bank 中的每个模板都应该是唯一的。
同质性是指虽然多样性机制可以鼓励 memory bank 中的每个模板都是唯一的,但它并不能保证没有一个模板是无用的,这意味着一个模板与所有视频片段的相似性可能很低。
稀疏性是指在未修剪的视频中,动作片段只占据整个视频的一小部分,而大部分视频片段都是背景片段。

2.方法

在这里插入图片描述

2.1 特征提取

这篇文章将RGB和Flow分开处理,都是通过预训练过的I3D网络来提取特征,得到XRGB i ∈ RLi×D , i指的是不同的视频,Li是每个视频snippets的数量。再添加一个任务转换层(由I3D提取的特征是用于动作识别的,现在要把他转到动作定位上来),得到Xe ∈ RLi×F

2.2 动作单元记忆网络

构建Memory Bank

memory bank中存放的是各种动作单元,在此处称之为模板,即一个模板代表一个动作单元,所有模板M∈ RK×F 。文中提出两个编码器EncK和EncV ,分别是用来生成键和值的,EncK 是为了降低模板的大小,提高读取效率,是由一个FC组成。EncV 是将每个模板编码为模板特定的分类器,由两层带有bottleneck的FC组成。键存储模板的外观和运动相关信息,值存储特定于模板的分类器,可用于片段分类。

在这里插入图片描述
KM ∈ RK×F/m,VM ∈ RK×CF ,m就是为了提高读取效率的超参数

Memory Bank用于分类

为了能够得到分类器,必须先从键值对中取出值,由EncQ将Xe 变换得到Qi ∈ RLi×F/m, 接着经过两个模块:自注意模块和交叉注意模块

自注意模块

在这里插入图片描述
I是一个单位矩阵,这样做的目的是避免Xe 的部分内容丢失

交叉注意模块

在这里插入图片描述
Si∈ RLi×K是查询Qi 和模板键的相似性分数

在这里插入图片描述
ViO ∈ RLi×CF ,通过将CF拆开得到Wcls∈Li×C×F
在这里插入图片描述
相似矩阵Si的第二维表示片段和模板之间的相似性,对第二维作MaxPool,得到前景注意权重ai∈RLi .
在这里插入图片描述
在这里插入图片描述
最后可以得到分类损失,过于简单,此处不再介绍

Memory Bank的更新

动作单元记忆库的更新是依赖于文章提出的三种机制:多样性,同质性,稀疏性。这三种机制说白了就是用三个损失来保证的,下面来对这三种损失依次介绍

在这里插入图片描述

Ld是多样性损失,设计目的是为了保证模板都是不同的,I是一个单位矩阵,F指矩阵的弗罗比尼乌斯范数。

在这里插入图片描述
在这里插入图片描述
Lh是同质性损失,目的是为了保证每个模板都是有用的,有用的意思是说,能够与视频中的片段关联起来。pOi ∈ RK ,然后使用2范数,使得每个模板的关联度都能够提升。

在这里插入图片描述
Ls 是稀疏性损失,直觉是动作在视频中出现的范围是较小的,因此需要抑制背景的激活,其实就是为了让ai 产生两级分化的效果。

在这里插入图片描述

3.消融实验

各种损失的消融
在这里插入图片描述
有无注意力模块
在这里插入图片描述
模板数量
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值