Weakly-Supervised Action Localization by Generative Attention Modeling批注

Weakly-Supervised Action Localization by Generative Attention Modeling

主要任务

动作定位,方法又可以分为两类:
一、全监督学习方式:采用帧级标注,缺点在于耗时且浪费资源
二、弱监督学习方式:只在视频级标注,改善了全监督的缺点

本文主要任务是:弱监督动作定位 (WSAL)
弱监督方式又分两种:
1.自顶向下:先学习一个视频层次分类器,然后利用产生的时间 类激活图 来获取帧级注意力(每帧可以是一个小片段)

2.自底向上:直接从原始数据预测时间注意力,然后在视频级标注的视频分类任务中进行优化

两种弱监督方法都使用视频级分类模型,新问题:行为和语境混淆问题

产生的原因:没有帧级标注的情况下,分类器通过集成所有相关帧的特征来学习,这是造成混淆的原因

解决方法
从原因入手:有人试图解决问题,假设背景帧是静止的即不包含任何动作,也就不包含任何特征,不会与动作帧混淆;
但这假设是有局限性的,即忽视了语境与动作的内在差异(或联系?)

改进:要想分开语境和行为,模型就必须抓住它们的不同(外观和动作层面;特征表示层面)
而且这些差异是客观存在的,与行为类别无关【新的发现】

从这个发现入手:
直观上,提出生成注意力机制,以帧级注意力来建模帧级特征表示
具体地,可以论证定位问题与1.传统的分类和2.表示模型 都有关。
因此本文方法整体框架(DGAM)包括两部分:
1.区分注意力模型和2.生成注意力模型(对应上两个)

区分注意力模型实际上就是训练一个基于时间池化特征(通过帧级注意力加权的)分类模型
生成注意力模型就是一个条件变分自动编码器(以帧级注意力值为条件)来建模帧级特征表示的分布

最大化表示似然 相应的可以优化 帧级注意(逻辑关系 应该是两者之间是正比关系) 由此可以很好的分开行为与语境

本文主要成果就是这个DGAM模型:通过建模不同注意力为条件的帧级表示 来区分行为和语境

相关工作

一、视频动作识别
传统方法是人工标注特征,而深度学习中已实现通过端到端的学习自动提取特征的方法
二、全监督的动作定位
大致分为两种
1.两阶段方法:先产生行为准则(?)然后再分类并调整(校正?)时间边界
2.一阶段方法:直接从原始数据来预测行为类别和定位。
三、弱监督的动作定位
弱监督行为定位:也可分为两类
1.自顶向下:视频级分类先学习,然后选择分类激活程度高的帧作为动作位置
2.自底向上:直接从数据中生成每一帧的注意力,并利用注意力加权的特征训练分类模型。

以上的弱监督方法都有共同的短板,就是忽略了行为-语境混淆的问题
于是人们想出了
四、生成模型
1.有人提出构建一个生成器来近似真实数据分布,缺点:这种近似分布由生成器决定,不好解析表示。
2.VAE也是近似,只不过方法不同,而且分布是确定的(高斯分布),因此可以解析地表示
3.流模型可以计算数据分布(更精准?),但相比之下,灵活性更低

综上 本文采用条件VAE(以注意值为条件)

方法:

整体框架在这里插入图片描述
整体来看有两个框架:
生成注意模型,也就是变分自动编解码器(CVAE),前面提过,它是以注意力值λ为条件,模拟出特征分布(表达)
区分注意模型,是利用λ用来区分背景帧和动作帧的,主要是分类模块

还有一部分是注意力模块,它是用来从特征x预测λ作为伪标签(因为缺少帧级标签)
这是一个交替训练的过程:
左图为(a)阶段:固定CVAE,更新注意力模块和分类模块
(利用1.基于分类的判别损失Ld ;2.基于表达的重构损失Lre;3.正则损失,这是本文另外加的。)
右图(b)阶段:固定注意力模块和分类模块,更新CVAE
训练过程中(a)(b)交替进行,交替训练注意力模块和CVAE模块:
先用注意力模块得到的伪标签去更新CVAE,然后固定CVAE去训练注意力模块

优化
在交替训练的同时,也就是在优化整个框架;
优化分两步:
1.利用误差值来更新注意力和分类模块
2.利用CVAE误差来更新CVAE

行为预测
预测定位的方法就是根据注意力值来判别,提取出高注意力值的连续段就是预测的行为定位位置

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值