论文链接
https://arxiv.org/abs/1705.01861
动机
当前的行为定位算法都是在每一帧上进行目标检测得到空间定位,再连接每一帧上的检测结果得到时间上的定位。这种方式将每一帧作为独立的输入,没有将视频帧的时间连续性特征信息考虑进去,容易造成检测结果的模糊
贡献
提出一个Action Tubelet detector (ACT-detector),输入多帧连续视频帧,输出预测行为在多帧上的多个bbox构成的anchor cuboids,然后对每个bbox进行精修得到预测行为的tubelets。由于ACT-detector考虑到多个视频帧的连续性特征,从而能够减少行为预测的模糊性,同时提高定位准确度
算法
ACT-detector
- 使用SSD作为目标检测的算法,用于预测anchor cuboid
- 将K帧连续视频帧输入SSD,每一帧共享网络权重,预测行为在每一帧上的anchor大小及其类别,回归得到每个anchor cuboid的精修值4K个,表示anchor cuboid在K帧上每个bbox的微调值,微调后获得更准确的tubelet
- 卷积核的感受野比anchor cuboid的bbox尺度更大,从而能提取anchor cuboid的上下文信息
- 训练损失:只使用存在行为的视频片段进行训练,排除了视频开始和结束的一些