temporal action proposals论文总结

最新推荐文章于 2022-09-04 15:17:54 发布

Charles、洛

最新推荐文章于 2022-09-04 15:17:54 发布

阅读量2.3k

点赞数 2

分类专栏：论文研读计算机视觉文章标签： action proposals 计算机视觉视频处理人工智能

本文链接：https://blog.csdn.net/sinat_35177634/article/details/88918421

版权

论文研读同时被 2 个专栏收录

12 篇文章 12 订阅

订阅专栏

计算机视觉

11 篇文章 1 订阅

订阅专栏

temporal action proposals论文总结——DAPs与SST

temporal action proposals

其主要目的是将长视频根据语义分割成多个segment，因为现在的针对视频的任务对长视频处理并不理想，比如视频的action detection和caption等。因此需要现将长视频分割成多个短视频，再进行处理。temporal action proposals是根据长视频的动作语义信息在时间维度来对长视频进行分割，保证每个segment包含一个action。本文将介绍两种方法，一种是2016年在ECCV上提出的DAPs，另一个是2017年CVPR的SST，SST也是DAPs的改进版，也是我们重点讨论的。

DAPs: Deep Action Proposals for Action Understanding 2016 ECCV

DAPs提出的主要目的是加快action proposal的速度，同时要提高准确率，如图：
在这里插入图片描述
由于action segments的长度不同，在之前的方法中需要设置不同的滑动窗口在多次扫描整个视频，再使用极大似然的方法找到最合适的segment，这种方法运行速度很慢。而DAPs只使用了一个滑窗就可以得到不同尺度的proposal，只对视频处理一遍因此速度是之前算法的10倍。它的具体模型如下：
在这里插入图片描述
对于输入的整个视频先使用C3D网络来提取视频的特征，在输入到LSTM网络来把这些特征串联起来，隐藏层h作为这个时间的特征，再使用滑动窗口来扫描整个特征序列，得到预测的action segment并且对每个segment打分。至于如何用一个滑动窗口得到不同尺度的segment，文章使用了anchor机制，anchor的尺度使用k-means聚类来对实际的action segments处理，得到k种尺度的anchor，再得到不同尺度的segment。训练时的公式如下：

损失函数由两部分组成，对segments的match准确率和对这个预测segment的打分，前者要求预测的segment区间尽量拟合真实的区间，后者要求这个区间有尽量高的概率存在action。
实验结果当然是比之前的方法都准确，速度也快很多，同时和action detection结合能提高action detection的性能。
论文链接：http://www.eccv2016.org/files/posters/P-2B-10.pdf

SST: Single-Stream Temporal Action Proposals 2017 CVPR

SST是DAPs方法的改进版，也是由提出DAPs方法的实验室提出的，SST的目的在要求高的准确率和速度的基础上，加上了在尽量少的proposal上得到更准确的action segments。并且和DAPs进行了对比，DAPs虽然可以使用一个滑动窗口得到不同尺度的segment，但是但对每帧进行多次处理，找到最合适的尺度。SST方法可以只对每帧进行一次处理，这样就再次提高了速度。具体模型如下：
在这里插入图片描述
和DAPs一样对输入的整个视频先使用C3D网络来提取视频特征，再使用GRU网络来串联这些特征，这里主要考虑到GRU比较于LSTM有更少的参数，因此速度更快。在提取proposal的过程中，对每个时间节点t，以计算以t为终点对多个尺度的区间的置信度c（该区间是否包含action），再使用阈值和非极大值抑制的方法找到最终的proposal。
同时文章还提到由于要处理长视频，容易导致过拟合。为了解决这种方法在训练是使用了密集采样，得到多个训练样本，如图：

每个X都是采样的训练样本，X比action proposal要长，这样对每个时间节点t都进行了多次的训练，从而来减少测试时的过拟合问题，使视频的encoder更加鲁棒。训练的损失函数如下：

对于每一个训练样本X并且终止时间在t时刻，有一个真实的置信度y，和得到的置信度x，使用二类交叉熵损失来得到对样本X的损失。

再加和所有的训练样本和所有的时刻，得到总体的损失。
在实验过程中，进行了三个方面的实验：得到的proposal的准确率、速度和尽量少的proposal。实验结果显示，SST对比之前的方法包括DAPs方法，准确率更高，尤其是在限制更少的proposal的情况下，同时速度更快。并且可以处理长视频，不管是终止时刻t，还是proposal的长度，均可以得到更好的结果。同时和action detection结合也有较大的提升。
论文链接：http://vision.stanford.edu/teaching/cs231n/reports/2017/posters/29.pdf

Charles、洛

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
temporal action proposals论文总结

temporal action proposals论文总结——DAPs与SSTtemporal action proposals其主要目的是将长视频根据语义分割成多个segment，因为现在的针对视频的任务对长视频处理并不理想，比如视频的action detection和caption等。因此需要现将长视频分割成多个短视频，再进行处理。temporal action proposals是根据长...
复制链接

扫一扫