Online Detection of Action Start in Untrimmed, Streaming Videos论文阅读笔记

最新推荐文章于 2023-08-21 16:20:34 发布

Hia_Hia_Hia

最新推荐文章于 2023-08-21 16:20:34 发布

阅读量895

点赞数 1

分类专栏：论文学习文章标签：论文学习

本文链接：https://blog.csdn.net/Hia_Hia_Hia/article/details/82984237

版权

5 篇文章 0 订阅

订阅专栏

这篇文章解决的问题是，识别视频中动作的开始。

作者对应于ODAS（在线识别动作开始）的三个问题提出了对应的解决方案：

（1）在动作开始的前后，场景和物体都极为相似 —— 用GAN生成hard negative样本，即动作开始前的样本；

（2）动作开始窗口是背景帧和动作帧的混合，开始窗口的特征可能会与动作开始前的背景帧更接近，而不是与动作开始后的动作帧更接近 —— 在训练中学习开始窗口和follow-up窗口的时序一致性（就是让它们更相似的意思）；

（3）开始窗口的样本比背景和动作的样本都要少 —— 用adaptive sampling策略来增加开始窗口的比例

判断为动作开始的条件：

（1）t时刻的类别是动作；

（2）t时刻的类别与t-1时刻的类别不相同；

（3）t时刻类别的得分超过了在训练集上网格搜索得到的阈值。

作者提出的三个策略：

1、Adaptively Sample the Training Data（就是前面的（3））

training batch中，一半数据从开始窗口中抽，一半数据从其他窗口（背景窗口或者动作窗口都可以）中抽，训练得到分类loss

2、Model the Temporal Consistency（就是前面的（2））

算开始窗口和follow-up窗口特征表示之前的L2距离作为相似性loss

3、Generate Hard Negative Samples via GAN（就是前面的（1））

用GAN生成hard negative样本是因为hard negative与开始窗口极为相似，作者选择产生特征，而不是产生视频（生成视频的难度太大了）。

生成器的设计原则是，产生与真实的开始窗口相似的hard negative样本。生成器的输入是随机噪声，并以真实的开始窗口的特征作为标签，输出的特征作为hard negative样本。以开始窗口和生成的hard negative样本的特征之间的L2距离作为匹配loss

判别器的设计原则是，产生的hard negative样本与真实的开始窗口仍然要有点区别。判别器的输入有可能是真实数据，也有可能是生成器生成的假数据，而判别器的工作就是将hard negative样本与动作和背景区分开来。对于真实数据，用的是公式（1）中的分类loss。

对于生成的假样本，loss是：

完整的目标函数：

（1）先以最小化来进行预训练

（2）基于（1）中的初始化，再进行对生成器和判别器的训练

（3）训练生成器时，固定判别器，此时的目标函数就是生成器的loss，即

（4）训练判别器时，固定生成器，此时的loss就是判别器的loss，即

对于目标函数的个人理解：

（1）预训练时的loss是由分类loss和相似性loss两部分组成，分类loss的减小让模型能够更准确地分辨出当前时刻是背景还是动作，相似性loss的减小保证了“开始窗口”向“follow-up窗口”靠近，即更加接近真正的动作开始时刻。

（2）生成器的loss就是匹配loss，匹配loss的减小让生成器生成的hard negative样本与真实的开始窗口样本尽可能相似，这点的原理也是出于实际上hard negative与开始窗口就是很相似的（可以理解为一个是在做动作开始的准备工作，一个是动作真的要开始了）。

（3）判别器的loss要复杂一点，这里的真实数据的loss和假数据的loss其实都是异曲同工，这两个loss相加是没有问题的，但为什么要加上相似性loss，这点我不能理解。

关注

专栏目录