自动分类打标签！飞桨TSM模型帮你做视频理解

最新推荐文章于 2024-08-14 11:07:54 发布

lovenlper

最新推荐文章于 2024-08-14 11:07:54 发布

阅读量657

点赞数

本文链接：https://blog.csdn.net/lovenlper/article/details/103617227

版权

本文介绍了TSM模型在视频理解中的应用，它通过时间位移模拟3D建模，实现与3D CNN相当的效果，但计算量更小。在飞桨（PaddlePaddle）平台上，提供了TSM模型的数据准备、模型训练、模型推断的详细步骤，并展示了在Kinetics-400数据集上的优秀效果。

摘要由CSDN通过智能技术生成

导读：目前互联网视频数据日益增多，用户观看短视频、小视频的时长也迅速增长，如何对海量的视频资源快速准确地分析、处理、归类是一个亟待解决的问题。视频理解技术可以多维度解析视频内容，理解视频语义，自动分类打标签，极大节省人工审核效率，节约成本；同时实现精准用户推荐，提升体验效果。

1. 视频理解之TSM

谈到视频理解，不得不给大家介绍一下新鲜出炉的视频理解技术之一：TSM（Temporal Shift Module）。TSM是由MIT和IBM Watson AI Lab的Ji Lin，Chuang Gan和SongHan等人提出的通过时间位移模拟3D建模达到效果和性能的平衡，提高视频理解能力的模块。

跟TSM最相关的视频理解模型当属Limin Wang等人在ECCV2016上发表的Temporal Segment Network (TSN)了。TSN模型从视频中采样N帧图像并通过最简单直接地对N帧图像分类结果进行平均的方式进行时序信息融合，取得了当时State-of-the-art的性能，并得到大规模的应用。考虑到TSN模型对时序信息的建模不够充分，以I3D，S3D, P3D等为代表的一系列工作通过3D卷积进行端到端联合时空建模，这一系列工作尽管能捕获时空特征，但是相比TSN，由2D卷积到3D卷积不可避免地引入了额外计算量。TSM巧妙的通过时间维度特征map移位的想法，理论上用零额外计算开销达到了不同帧之间特征融合联合建模的目的。

论文: Temporal Shift Module for Efficient VideoUnderstanding：https://arxiv.org/pdf/1811.08383v2.pdf

先看一下文中给出的测试视频示例：如果图片分别从左往右播放和从右往左播放，测试者会给出不同但是正确的理解结果，说明对视频的理解强依赖于视频的时序关系。

640?wx_fmt=png