《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记

本文介绍了TSM(Temporal Shift Module)技术,该技术通过在2DCNN中位移时间维度的channels来增强视频信息理解。文章讨论了位移操作的优缺点,包括可能的信息丢失和硬件负担,并通过实验对比了不同位移程度对推理延迟的影响。TSM在Kinetics等数据集上表现出色,与P-3D类似,但在计算成本上与2DCNN相当。此外,还提出了一种在线TSM模型,减少了内存占用。实验结果显示,TSM在多种数据集上显著提升了准确率,尤其是在something-somethingv2上提高了31.3%。
摘要由CSDN通过智能技术生成

这篇论文的核心思想是通过在2DCNN中位移temporal维度上的channels,来实现视频中时间维度上的信息交互。作者分析了一般的卷积操作,其主要分为两个部分,1是位移,2是对应位置的权值相乘再相加。其中位移不消耗计算资源,所以,作者想到能否可以在temporal维度上位移,达到不同帧的特征信息交融来增强模型对视频信息的理解。位移过程如下图所示:

在这里插入图片描述
上图中,不同颜色代表不同帧的特征,其大小为chw*。图b中,在T方向上,将第一列向下位移1位,第二列向上位移1位,空出的部分补0填充。

**这样的位移方法也有它的弊端。**其一,大步长的位移会导致原始特征中补充的0太多,导致丢失重要信息。2、给硬件造成了负担,增加了内存的占用。3、降低了空间维度的建模能力,由于原有的空间特征被破坏,所以可能会导致变差。

为了去研究其优势和劣势,作者测量了TSM模型和2Dbaseline在不同硬件设备上的推理延迟。使用ResNet-50主干和8帧输入测量模型,使用无移位(2D基线)、部分移位(1/8、1/4、1/2)和全移位(移动所有通道)进行比较(下面曲线图a)。1000 次运行后(之前有200次的热身),发现位移操作相比baseline的确有延迟影响。移动所有通道,延迟开销将占到CPU推理时间的13.7%,移动1/8,延迟开销限制在3%.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值