I3D与T3D读后笔记

本文介绍了I3D模型和T3D模型在视频动作识别中的应用。I3D通过imageNet预训练和Kinetics数据集,采用双流结构实现高准确率。T3D引入Temporal Transition Layer(TTL)捕捉多时间尺度信息,并提出新的迁移学习策略。实验表明,这两种方法在UCF-101和HMDB-51数据集上取得良好效果。
摘要由CSDN通过智能技术生成

I3D

论文:《Quo Vadis ,Action Recognition? A New Model and the Kinetics Dataset》

这篇论文的主要内容分为3个部分:
1、介绍了Kinetics数据集。
2、提出了一种用imageNet数据集预训练3D卷积模型的方法,避免了3D卷积模型从0开始训练。
3、构建了3D卷积的双流结构。在UCF-101上测试出准确率高达98%的好效果。

Kinetics数据集

这个数据集有400个人物动作类,每个类有400个视频剪辑。它比UCF-101和HMDB-51高出了两个数量级。这个数据集在当时被提出来时挺新鲜的,但现在用它做实验的也挺多的了。作者在论文中像用它做之前各种流行模型做预训练,然后再用UCF-101和HMDB-51上做训练和测试,比较精确度的提高。

imageNet数据集预训练

用imageNet数据集做预训练在2D卷积模型(视频中人物动作识别)经常用到,它可以有效的减小了了视频数据集数量小而产生过拟合的缺点。但imageNet数据集毕竟都是图片,3D卷积模型附加了内核维度,所以这给获取imageNet训练来的参数造成了困难。但作者想到了一个很奇特的方法:用把多个相同的图片当视频的帧堆叠在一起,构成一个无聊的视频。这样就可以把imageNet数据集变成一个由无聊视频组成的数据集。用无聊视频做预训练可以获得我们想要从学习图片中得到的参数。

模型构建

作者在很多模型上做了实验,这些模型分别学习了imageNet数据集上的二维参数,在Kinetics数据集上进行了预训练,用UCF-101和HMDB-51进行训练和测试,

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值