视频分析-3D卷积

最新推荐文章于 2025-03-06 09:38:54 发布

鱼儿会飞吗

最新推荐文章于 2025-03-06 09:38:54 发布

阅读量959

点赞数 21

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_34425255/article/details/138137180

版权

本文讨论了视频分析中，如何将视频视为不同于静态图像的动态序列，重点介绍了3D卷积的概念，即在2D卷积的基础上增加了时间维度，使得卷积核可以处理连续帧的上下文信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在说这个视频分析之前，先说一下视频和图像之间的联系和区别，之前学习其它算法当中，都是以图像为例，当前输入一张图像，然后经过各种网络的变换，得到一个结果，输入是一张图像和输入是一段视频，之间有什么区别呢？可以这么来想，视频是一个动的，图像给我们的感觉是静的，往简单的说，视频是由很多图像组成的，由一帧一帧的图像，也就是一个图像，按照一个时间顺序给它拼接在一起，这样就形成一个视频。

那现在我拿到一个视频，我该怎么进行分析，有两种方法，第1种方法是把视频当中每一帧图像都单独拿出来，都单独拿出来之后，感觉像是每一个图像，它们之间都是无关的，然后分别去分析其中每一个图像，这是第1种方法。单独把每一张图像拿出来，分别去做。

第2种方法，这个视频既然是动的，肯定像是时间序列似的，按照时间，按照每一帧图像发生的顺序，第0帧，第1帧，第2帧，第3帧，...这样的顺序去做一件事，比如说我打拳，肯定是我这个拳头不是直接就一下子打到你，是按照这个顺序一点一点把拳头出来，然后才打到一个人，在视频当中，我们有一个时间序列，有一个动作序列，实际当我们在分析过程中，如果只考虑一帧一帧图像，好像不行了，因为这样没有考虑它们之间相互关系，一个时间序列从前到后，它们的依存关系，所以说这一次说的视频分析和传统的图像的分析好像有点不同了，这里需要多一步，多了一个时间的维度，因为我们的动作是一个序列，这里先简单说了视频和图像的区别和联系。

接下来讲解3D卷积

先说第1点，这个卷积大家应该比较熟悉了，有一张输入图像来了，通过卷积，得到一个特征，那什么叫3D卷积，下面的图先看一看。

有什么区别？

分析：现在在做一个2D的卷积，基于图像当中的一个区域，得到了一个特征点，或者是叫特征值，与其进行对应，这是非常传统的2D的卷积。

分析：而这张图像一个魔方似的，这就是一个3D的卷积，我们先来看一下3D卷积，输入有什么不同？

之前2D卷积当中，输入像是一个平面，而3D卷积当中，输入像是3D图，多了一个维度，这里也写出来了，多了一个维度叫做时间。

可以这么来想，这里增加一个维度叫时间，序列的感觉，在3D当中，我们做卷积的时候，输入的不是一张图像，而是把多个图像，按照一个序列的形式进行一个输入，所以说我们现在，多出来的这个维度，就把它当做这样，现在我的输入不是一张图像了，而是多张图像组成的一个序列，所以我们多了一个维度，就是简简单单这个意思而已，没有什么特别复杂的东西，就是好多张图像一起去做一件事而已。

但是这个不是那个Batch的感觉，之前学习的时候，一个Batch训练64张图像，一个Batch训练128张图像，这个可不是Batch那个意思，这个是表示在一次迭代当中，我们先不考虑Batch那个感觉，直接我们的输入就是三维的，把一个图像的数量，把每一帧融入到了一个维度当中，而不是Batch那个意思。

多了一个维度之后，有什么区别呢？

以前那个卷积核是3乘3的，表示我的H是3，W是3，这一次我换了一下，这次我的卷积核就不是3乘3了，而是3乘3乘多少呢？

如果是3乘3乘3表示什么意思呢？

表示这个卷积核大小还是3乘3大小，然后一次我要考虑序列当中，上下文当中的3帧图像，这里多了一个维度，表示序列，或者说叫图像的帧数。

所以说在3D卷积当中，如果不考虑Batch那个维度，我们的输入是多了一个维度，帧数，输入的序列的长度，卷积核当中也多了一个维度，表示在这个序列当中，这个序列多长，你做卷积，序列多长，你做滑动窗口。

这个就是3D卷积和2D卷积的区别，就是多了一个时间维度，相当于一次我会传入进来多帧的图像数据。