视频分析-3D卷积

在说这个视频分析之前,先说一下视频和图像之间的联系和区别,之前学习其它算法当中,都是以图像为例,当前输入一张图像,然后经过各种网络的变换,得到一个结果,输入是一张图像和输入是一段视频,之间有什么区别呢?可以这么来想,视频是一个动的,图像给我们的感觉是静的,往简单的说,视频是由很多图像组成的,由一帧一帧的图像,也就是一个图像,按照一个时间顺序给它拼接在一起,这样就形成一个视频。

那现在我拿到一个视频,我该怎么进行分析,有两种方法,第1种方法是把视频当中每一帧图像都单独拿出来,都单独拿出来之后,感觉像是每一个图像,它们之间都是无关的,然后分别去分析其中每一个图像,这是第1种方法。单独把每一张图像拿出来,分别去做。

第2种方法,这个视频既然是动的,肯定像是时间序列似的,按照时间,按照每一帧图像发生的顺序,第0帧,第1帧,第2帧,第3帧,...这样的顺序去做一件事,比如说我打拳,肯定是我这个拳头不是直接就一下子打到你,是按照这个顺序一点一点把拳头出来,然后才打到一个人,在视频当中,我们有一个时间序列,有一个动作序列,实际当我们在分析过程中,如果只考虑一帧一帧图像,好像不行了,因为这样没有考虑它们之间相互关系,一个时间序列从前到后,它们的依存关系,所以说这一次说的视频分析和传统的图像的分析好像有点不同了,这里需要多一步,多了一个时间的维度,因为我们的动作是一个序列,这里先简单说了视频和图像的区别和联系。

接下来讲解3D卷积

先说第1点,这个卷积大家应该比较熟悉了,有一张输入图像来了,通过卷积,得到一个特征,那什么叫3D卷积,下面的图先看一看。

有什么区别?

分析:现在在做一个2D的卷积,基于图像当中的一个区域,得到了一个特征点,或者是叫特征值,与其进行对应,这是非常传统的2D的卷积。

 

分析:而这张图像一个魔方似的,这就是一个3D的卷积,我们先来看一下3D卷积,输入有什么不同?

之前2D卷积当中,输入像是一个平面,而3D卷积当中,输入像是3D图,多了一个维度,这里也写出来了,多了一个维度叫做时间。

可以这么来想,这里增加一个维度叫时间,序列的感觉,在3D当中,我们做卷积的时候,输入的不是一张图像,而是把多个图像,按照一个序列的形式进行一个输入,所以说我们现在,多出来的这个维度,就把它当做这样,现在我的输入不是一张图像了,而是多张图像组成的一个序列,所以我们多了一个维度,就是简简单单这个意思而已,没有什么特别复杂的东西,就是好多张图像一起去做一件事而已。

但是这个不是那个Batch的感觉,之前学习的时候,一个Batch训练64张图像,一个Batch训练128张图像,这个可不是Batch那个意思,这个是表示在一次迭代当中,我们先不考虑Batch那个感觉,直接我们的输入就是三维的,把一个图像的数量,把每一帧融入到了一个维度当中,而不是Batch那个意思。

多了一个维度之后,有什么区别呢?

以前那个卷积核是3乘3的,表示我的H是3,W是3,这一次我换了一下,这次我的卷积核就不是3乘3了,而是3乘3乘多少呢?

如果是3乘3乘3表示什么意思呢?

表示这个卷积核大小还是3乘3大小,然后一次我要考虑序列当中,上下文当中的3帧图像,这里多了一个维度,表示序列,或者说叫图像的帧数。

所以说在3D卷积当中,如果不考虑Batch那个维度,我们的输入是多了一个维度,帧数,输入的序列的长度,卷积核当中也多了一个维度,表示在这个序列当中,这个序列多长,你做卷积,序列多长,你做滑动窗口。

这个就是3D卷积和2D卷积的区别,就是多了一个时间维度,相当于一次我会传入进来多帧的图像数据。

  • 21
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值