3D CNN

由于最近一个比赛要用到3D U-Net,所以有必要先了解一下3D CNN。本文主要针对3D CNN结构与原理进行详细讲解,对于其应用背景(Human Action Recognition)不作阐述。如果你现在对卷积还存在疑问,请参考这篇博客彻底弄懂卷积的内涵再继续看下文。
论文地址:https://ieeexplore.ieee.org/abstract/document/6165309

0. 导语

先回顾一些2D卷积
在这里插入图片描述
在这里插入图片描述

强调两点:

  1. 滤波器的卷积核数量与前一层Feature Maps数量相等。
  2. 一个滤波器只在当前层产生一个Feature Map,可通过滤波器的数量来控制产生的Feature Map的数量。

思考一下,如果卷积核数量小于前一层通道数怎么办?这就是3D卷积的思想来源。

1. 论文背景

导语中的2D卷积是针对一张原始图像或者视频的一帧进行的特征提取,但是很多场景中多张图片(MRI slices)或者视频的连续帧之间往往存在关联信息,这就是3D CNN提出的背景。
3D CNN主要是为了解决图片之间的关联信息,增加一个新的维度信息,比如论文中的阐述:
This model extracts features from both the spatial and the temporal dimensions by performing 3D convolutions, thereby capturing the motion information encoded in multiple adjacent frames.

2. 论文亮点

2D CNN主要将视频的一帧作为输入,但这就忽略了各帧之间的关联信息。而3D CNN以连续的多帧作为输入,增加了时间维度的信息,能够提取到更具表达性的特征。
在这里插入图片描述

3. 论文细节

3.1 3D卷积

导语中已经阐述3D卷积的突出特点:卷积核数量小于前一层通道数
在这里插入图片描述

如果是2D卷积应该就是一个卷积核数量为4的滤波器去卷积产生一张Feature Map。但是3D卷积共享一个卷积核产生了多张Feature Map,这些Feature Map之间包含着时间维度的信息,即连续帧之间的关联信息。
但是如果想要不同类型的特征呢?与2D卷积一样,用不同的滤波器即可。
在这里插入图片描述
注:颜色不同表示是两个不同的卷积核。

3.2 hardwired kernels

通过上面的讲解你应该知道3D卷积的真正实现了,但是在实际应用中我们不可能直接对连续的帧直接做3D卷积,因为这样提取的信息过于简单,所以需要在3D卷积之前做一次hardwired kernels 卷积。
在这里插入图片描述

解释一下这里5种颜色的33个Feature map,先看原文:
This results in 33 feature maps in the second layer in five different channels denoted by gray,gradient-x,gradient-y, optflow-x, and optflow-y. The gray channel contains the gray pixel values of the seven input frames.The feature maps in the gradient-x and gradient-y channels are obtained by computing gradients along the horizontal and vertical directions, respectively, on each of the seven input frames, and the optflow-x and optflow-y channels contain the optical flow fields along the horizontal and vertical directions, respectively, computed from adjacent input frames.
作者利用 hardwired kernels 生成了灰度、x方向梯度、y方向梯度、x方向光流、y方向光流五种特征信息,前面三个通道的信息可以直接对每帧分别操作获取,后面的光流(x,y)则需要利用两帧的信息才能提取,因此H1层的特征maps数量:(7+7+7+6+6=33),特征maps的大小依然是60 * 40。

3.3 3D CNN

有了3.2节中生成的五种特征(五种颜色区分),每种特征又有多个channel,因此可以分别对这些channel进行3D 卷积(为什么不对所有channel放一起进行3D卷积?作者通过实验证明这种分开卷积效果更好!)。
在这里插入图片描述
注:

  1. 上图2个红框表示两个不同的滤波器得到的特征图。
  2. 上图这种3D卷积由于是对五种特征分开进行卷积的,因此卷积核的数量是3.1节中所有通道一起卷积的卷积核数量的五倍。

由于3D CNN考虑了时间或新增维度上的连续信息,因此对于医学图像(MRI、CT)分析是非常适合的。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值