视频理解2-I3D

  • I3D
  1. 简介

视频的模型,最好要在视频的数据集上进行预训练。

I3D模型在现有的数据集上,效果不错。(在本数据集上训练,然后微调,结果很好)

在视频中间选一帧,然后做动作分类。效果已经很好了。

  1. 摘要

(1)提出了新的数据集

以前的数据集太小,因此无法区分算法的优劣。因此重新构造了数据集。

每个视频clip有10s,并且精准的切割(标注)。

在此大规模上训练过的数据集,在小数据上有很大的提升。

(2)提出了新的模型

I3D :双流扩展的3D网络。其来自2D网络的扩展,将已经训练好的2D网络,将其中的3*3的kernel变为3*3*3.

好处,不用专门设计视频理解的网络。

并且,可以拿2D网络的参数,做3D网络的初始化。

  1. 引言
    1. imagnet 不仅仅可以训练深度神经网络,还可以对其他任务进行迁移学习。
    2. 目前有的数据集,才1w左右。因此,作为提出新的数据集KINECT
    3. Kinect400 有400个类别,每个类别有400以上的视频。
    4. 拿最新的模型,在此数据集上进行benchmark,测试数据集的难易程度。
    5. 3D虽然已经拿到的时间信息,但是不够好,因此还是增加了two-stream
  2. CNN + LSTM

最后一个时间戳上的结果,加上fc,softmax,进行分类。

结果:效果不好。已经被抛弃。

  1. 3D-ConvNet

把一个视频,分成一个个视频段。

每个视频段是1-k张图像,作为一个volume。然后把此视频扔给网络。

然后此网络就是要进行时空学习,不仅要处理二维的外观特征,还要处理时间流信息。

因此,此处的所有的卷积,池化,都是3*3*3.

导致参数量很大。需要大数据才能学习。

最后返回一个特征,然后在特征上进行全连接层,进行分类。

  1. Two-steam

只需要学习 光流 到 动作的映射关系。

  1. 3D-Fused Two-stream

加权平均,用3DCONV替代了。之前是late fusion,现在是early fusion,在没有出结果的时候,将特征融合在一起。

此处的融合,也可以用lstm做,但是效果不好,因此还是用3dconv做。

先用3d后用2d,还是先用2d,后用3d效果好么?结论:先2d,后3d效果最好。

好训练,结果也好。

  1. Two-stream 3D-ConvNet

 有足够数据集上,3d效果,明显比2d效果好。

但是3dcnn也不是万能的,还是有一些东西学不到。

如果用光流帮助她以下,效果会更好。

因此,作者还是采用双流的网络,但是每一个分支都是3D的卷积。

既然每一分支都是3d卷积网络,因此也不存在late fusion 或者early fusion。

因此,就直接加权平均,出结果。

  1. Inflating 2D TO 3D

直接把2d网络直接转化为3D。

  1. Bootstraping 3d filter from 2d filters

验证迁移学习的参数初始化对不对,直接采用相同的输入,相同的参数,得到输出。看输出是否相同。

现在:直接将图像重复,合成视频;将参数沿时间维度重复,进行初始化。

输入为NX,参数为NW,则输出为N份的WX。

如果想要输出一致,则需要将结果除以N。

这样在往后面传递的时候,后面的参数,也不会有违和感。

《文字看不懂的时候,就看代码》

  1. Inflated inception – V1

时间维度,不做下采样。

即:输入4帧,输出也是64帧。这个也就1-2s,对于描述动作来说,也就不要下采样了。

但是在后面的维度上,做了下采样。

  1. 结果

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
i3d_features是一种用于视频动作识别和行为分析的特征表示方法。"i3d"代表了"inflated 3D",指的是将充气的二维卷积网络(Inception)拓展到三维空间中。 i3d_features主要侧重于对视频中的动态信息进行建模。对于每一帧的图像,我们首先通过一个预训练的二维卷积模型提取图像特征。然后,将提取的图像特征应用于3D卷积模型,以获得视频中的动态特征。这样,我们可以捕捉到视频中的运动、动作和时空上的变化。 与传统的基于二维卷积神经网络的方法相比,i3d_features具有以下优势。首先,通过在三维空间中建模视频动态,我们可以捕捉到更加丰富的运动和动作信息。其次,在预训练的二维卷积模型的基础上,在新视频数据上进行微调可以更好地适应新任务。最后,i3d_features在计算效率上也有一定优势,因为它可以共享相同的二维卷积特征计算。 i3d_features被广泛应用于视频动作识别、行为分析以及视频处理领域。通过提取视频中的动态特征,我们可以实现动作识别、行为分类、动作生成等任务。同时,i3d_features也可以用来进行视频内容理解视频检索和视频压缩等方面的研究。它具有较高的灵活性和可拓展性,可以应用于不同的视频分析场景。 综上所述,i3d_features是一种用于视频动作识别和行为分析的特征表示方法,通过在三维空间中建模视频动态,可以捕捉到视频中的运动、动作和时空上的变化。它在图像特征提取、任务适应性和计算效率等方面具有优势,并广泛应用于视频处理领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值