论文Action Tubelet Detector for Spatio-Temporal Action Localization解读

论文链接

https://arxiv.org/abs/1705.01861

动机

当前的行为定位算法都是在每一帧上进行目标检测得到空间定位,再连接每一帧上的检测结果得到时间上的定位。这种方式将每一帧作为独立的输入,没有将视频帧的时间连续性特征信息考虑进去,容易造成检测结果的模糊

贡献

提出一个Action Tubelet detector (ACT-detector),输入多帧连续视频帧,输出预测行为在多帧上的多个bbox构成的anchor cuboids,然后对每个bbox进行精修得到预测行为的tubelets。由于ACT-detector考虑到多个视频帧的连续性特征,从而能够减少行为预测的模糊性,同时提高定位准确度

算法

在这里插入图片描述

ACT-detector

  1. 使用SSD作为目标检测的算法,用于预测anchor cuboid
  2. 将K帧连续视频帧输入SSD,每一帧共享网络权重,预测行为在每一帧上的anchor大小及其类别,回归得到每个anchor cuboid的精修值4K个,表示anchor cuboid在K帧上每个bbox的微调值,微调后获得更准确的tubelet
  3. 卷积核的感受野比anchor cuboid的bbox尺度更大,从而能提取anchor cuboid的上下文信息
  4. 训练损失:只使用存在行为的视频片段进行训练,排除了视频开始和结束的一些
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值