I3D与T3D读后笔记

最新推荐文章于 2024-08-12 08:37:56 发布

程序小翰

最新推荐文章于 2024-08-12 08:37:56 发布

阅读量2.2k

点赞数 1

本文链接：https://blog.csdn.net/qq_40133804/article/details/104294634

版权

本文介绍了I3D模型和T3D模型在视频动作识别中的应用。I3D通过imageNet预训练和Kinetics数据集，采用双流结构实现高准确率。T3D引入Temporal Transition Layer（TTL）捕捉多时间尺度信息，并提出新的迁移学习策略。实验表明，这两种方法在UCF-101和HMDB-51数据集上取得良好效果。

摘要由CSDN通过智能技术生成

I3D

论文：《Quo Vadis ,Action Recognition? A New Model and the Kinetics Dataset》

这篇论文的主要内容分为3个部分：
1、介绍了Kinetics数据集。
2、提出了一种用imageNet数据集预训练3D卷积模型的方法，避免了3D卷积模型从0开始训练。
3、构建了3D卷积的双流结构。在UCF-101上测试出准确率高达98%的好效果。

Kinetics数据集

这个数据集有400个人物动作类，每个类有400个视频剪辑。它比UCF-101和HMDB-51高出了两个数量级。这个数据集在当时被提出来时挺新鲜的，但现在用它做实验的也挺多的了。作者在论文中像用它做之前各种流行模型做预训练，然后再用UCF-101和HMDB-51上做训练和测试，比较精确度的提高。

imageNet数据集预训练

用imageNet数据集做预训练在2D卷积模型（视频中人物动作识别）经常用到，它可以有效的减小了了视频数据集数量小而产生过拟合的缺点。但imageNet数据集毕竟都是图片，3D卷积模型附加了内核维度，所以这给获取imageNet训练来的参数造成了困难。但作者想到了一个很奇特的方法：用把多个相同的图片当视频的帧堆叠在一起，构成一个无聊的视频。这样就可以把imageNet数据集变成一个由无聊视频组成的数据集。用无聊视频做预训练可以获得我们想要从学习图片中得到的参数。

模型构建

作者在很多模型上做了实验，这些模型分别学习了imageNet数据集上的二维参数，在Kinetics数据集上进行了预训练，用UCF-101和HMDB-51进行训练和测试，

最低0.47元/天解锁文章

程序小翰

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
I3D与T3D读后笔记

I3D论文：《Quo Vadis ,Action Recognition? A New Model and the Kinetics Dataset》这篇论文的主要内容分为3个部分：1、介绍了Kinetics数据集。2、提出了一种用imageNet数据集预训练3D卷积模型的方法，避免了3D卷积模型从0开始训练。3、构建了3D卷积的双流结构。在UCF-101上测试出准确率高达98%的好效果...
复制链接

扫一扫