3D CNN

最新推荐文章于 2024-08-23 09:57:26 发布

好运来2333

最新推荐文章于 2024-08-23 09:57:26 发布

阅读量1.4w

点赞数 18

分类专栏： Paper

本文链接：https://blog.csdn.net/qq_33254870/article/details/97302341

版权

Paper 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

由于最近一个比赛要用到3D U-Net，所以有必要先了解一下3D CNN。本文主要针对3D CNN结构与原理进行详细讲解，对于其应用背景（Human Action Recognition）不作阐述。如果你现在对卷积还存在疑问，请参考这篇博客彻底弄懂卷积的内涵再继续看下文。
论文地址：https://ieeexplore.ieee.org/abstract/document/6165309

0. 导语

先回顾一些2D卷积
在这里插入图片描述

强调两点：

滤波器的卷积核数量与前一层Feature Maps数量相等。
一个滤波器只在当前层产生一个Feature Map，可通过滤波器的数量来控制产生的Feature Map的数量。

思考一下，如果卷积核数量小于前一层通道数怎么办？这就是3D卷积的思想来源。

1. 论文背景

导语中的2D卷积是针对一张原始图像或者视频的一帧进行的特征提取，但是很多场景中多张图片（MRI slices）或者视频的连续帧之间往往存在关联信息，这就是3D CNN提出的背景。
3D CNN主要是为了解决图片之间的关联信息，增加一个新的维度信息，比如论文中的阐述：
This model extracts features from both the spatial and the temporal dimensions by performing 3D convolutions, thereby capturing the motion information encoded in multiple adjacent frames.

2. 论文亮点

2D CNN主要将视频的一帧作为输入，但这就忽略了各帧之间的关联信息。而3D CNN以连续的多帧作为输入，增加了时间维度的信息，能够提取到更具表达性的特征。
在这里插入图片描述

3. 论文细节

3.1 3D卷积

导语中已经阐述3D卷积的突出特点：卷积核数量小于前一层通道数
在这里插入图片描述

如果是2D卷积应该就是一个卷积核数量为4的滤波器去卷积产生一张Feature Map。但是3D卷积共享一个卷积核产生了多张Feature Map，这些Feature Map之间包含着时间维度的信息，即连续帧之间的关联信息。
但是如果想要不同类型的特征呢？与2D卷积一样，用不同的滤波器即可。
在这里插入图片描述
注：颜色不同表示是两个不同的卷积核。

3.2 hardwired kernels

通过上面的讲解你应该知道3D卷积的真正实现了，但是在实际应用中我们不可能直接对连续的帧直接做3D卷积，因为这样提取的信息过于简单，所以需要在3D卷积之前做一次hardwired kernels 卷积。
在这里插入图片描述

解释一下这里5种颜色的33个Feature map，先看原文：
This results in 33 feature maps in the second layer in five different channels denoted by gray,gradient-x,gradient-y, optflow-x, and optflow-y. The gray channel contains the gray pixel values of the seven input frames.The feature maps in the gradient-x and gradient-y channels are obtained by computing gradients along the horizontal and vertical directions, respectively, on each of the seven input frames, and the optflow-x and optflow-y channels contain the optical flow fields along the horizontal and vertical directions, respectively, computed from adjacent input frames.
作者利用 hardwired kernels 生成了灰度、x方向梯度、y方向梯度、x方向光流、y方向光流五种特征信息，前面三个通道的信息可以直接对每帧分别操作获取，后面的光流（x，y）则需要利用两帧的信息才能提取，因此H1层的特征maps数量：（7+7+7+6+6=33），特征maps的大小依然是60 * 40。