论文Action Tubelet Detector for Spatio-Temporal Action Localization解读

最新推荐文章于 2024-06-24 16:55:32 发布

sinat_24674017

最新推荐文章于 2024-06-24 16:55:32 发布

阅读量2.6k

点赞数 3

分类专栏：行为检测文章标签： action detection 行为检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_24674017/article/details/99731174

版权

论文链接

https://arxiv.org/abs/1705.01861

动机

当前的行为定位算法都是在每一帧上进行目标检测得到空间定位，再连接每一帧上的检测结果得到时间上的定位。这种方式将每一帧作为独立的输入，没有将视频帧的时间连续性特征信息考虑进去，容易造成检测结果的模糊

贡献

提出一个Action Tubelet detector (ACT-detector)，输入多帧连续视频帧，输出预测行为在多帧上的多个bbox构成的anchor cuboids，然后对每个bbox进行精修得到预测行为的tubelets。由于ACT-detector考虑到多个视频帧的连续性特征，从而能够减少行为预测的模糊性，同时提高定位准确度

算法

在这里插入图片描述

ACT-detector

使用SSD作为目标检测的算法，用于预测anchor cuboid
将K帧连续视频帧输入SSD，每一帧共享网络权重，预测行为在每一帧上的anchor大小及其类别，回归得到每个anchor cuboid的精修值4K个，表示anchor cuboid在K帧上每个bbox的微调值，微调后获得更准确的tubelet
卷积核的感受野比anchor cuboid的bbox尺度更大，从而能提取anchor cuboid的上下文信息
训练损失：只使用存在行为的视频片段进行训练，排除了视频开始和结束的一些

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。