Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

Cd_Gump

已于 2022-05-05 14:22:11 修改

阅读量756

点赞数 1

文章标签：深度学习

于 2022-05-05 14:18:05 首次发布

本文链接：https://blog.csdn.net/Cd_Gump/article/details/124586619

版权

在这里插入图片描述

CVPR-2016，做tad任务。结果：
thumos14，19%。MEXaction7.4%。
在这里插入图片描述

method：分为3个CNN自网络，输入都是经过sliding windows将原视频分为16，32，64，128，256，512的视频段（segment），这六个segment是overlap为75%的，有重叠的。再将这6个segment pooling为16frames,当作输入，维度为171×128×16（HWT）。

Method

1.proposal network
将所有trimed segment都当作正样本，将untrimed segment 与GT IOU大于0.7的当作正样本，小于0.3的当作负样本。如果IOU没有大于0.7的segment，将IOU大于0.5的最大的IOU segment当作正样本。 conv1a(64) - pool1(1,1) - conv2a(128) -pool2(2,2) - conv3a(256) - conv3b(256) - pool3(2,2) -conv4a(512) - conv4b(512) - pool4(2,2) - conv5a(512)- conv5b(512) - pool5(2,2) - fc6(4096) - fc7(4096) -fc8(K + 1).经过fc8后，分两类，即是否为背景。softmax loss。
在这里插入图片描述
Spro，sn，sk，Nb,Npro分别代表：proposal segment（正负所有样本的segment），第n个segment属于第k个类别，Nb为background数量，Npro为正负样本所有的数量（约等于2倍的正样本数量）。Nt代表，trimmed segment（正样本），Nu代表，Untrimmed segment（IOU大于0.7的segment）。
这个子网络主要是去除一些背景片段

2.*classification network（这个网络在预测中没有，是对localization net 做初始化用的）
经过proposal network后，背景被去除，对剩下的数据进行K个类别的动作分类。经过fc8后，输出K+1类，其中1类为背景类。
除了给positive segment正样本标签外，classification network 具体的给予了positive segmentK个类别。为了balance 每个类别的样本，减少了背景。在这里插入图片描述

3.*localization network
为了提高与GT overlap高的segment分数（减少与 GT overlap低的segment分数），为了确保后处理步骤选择的是重合度较高的片段而不是重合度较小的片段。所以设计了这个网络，设计了一个关于overlap的new loss。
输入此网络的数据Sloc经过了Scls，如果trimmed segment ，overlap v=1,untrimmed segment, overlap v = 与GT 的IOU。
在这里插入图片描述

说一说个人的理解，vn在背景和trimmed segment中=1，所以是对overlap没影响的。但是untrimmed segment中，基本是小于1大于0.5的。所以overlap越大，代表，除以一个越大的数，Loverlap越小。

测试阶段：
测试时的计算流程：在测试时，只使用proposal 及 localization network。对于每个segment，先用proposal network计算它是动作的概率，若这个概率高于阈值（0.7)，则作为一个候选segment进入下一个阶段用localization network计算置信度分数，低于阈值的segment都会被舍弃。

后处理
在这里插入图片描述
个人讨论
SCNN通过sliding windows，将原视频切割成不同长度的视频，再通过pooling操作统一送入C3D网络，如果没有Proposal network 操作，会下降2个点，proposal 的生成一直是TAD任务的难点，一个好的proposal可以大大提高模型的效果。

痛点：
proposal通过sliding windows生成，尺寸固定，灵活性不高。

参考：
https://niuyuanyuanna.github.io/2018/12/24/computer_version/scnn/#localization-network
https://mp.weixin.qq.com/s/bcS_qHdOA_C5zJTje81AoQ

Cd_Gump

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

CVPR-2016，做tad任务。结果：thumos14，19%。MEXaction7.4%。method：分为3个CNN自网络，输入都是经过sliding windows将原视频分为16，32，64，128，256，512的视频段（segment），这六个segment是overlap为75%的，有重叠的。再将这6个segment pooling为16frames,当作输入，维度为171×128×16（HWT）。Method1.proposal network将所有trimed segment
复制链接

扫一扫