【空洞卷积】Dilated Convolution是个什么神奇的存在？真的很好用！

985小水博一枚呀

于 2024-09-12 13:03:57 发布

阅读量250

点赞数 12

分类专栏：学习笔记文章标签：人工智能网络深度学习 python numpy 数据挖掘神经网络

本文链接：https://blog.csdn.net/gaoxiaoxiao1209/article/details/142172304

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

【深度学习|空洞卷积】Dilated Convolution是个什么神奇的存在？

Multi-scale context aggregation with dilated convolutions
论文地址：https://arxiv.org/pdf/1511.07122v2

空洞卷积 (Dilated Convolution) ：

空洞卷积的定义

空洞卷积（Dilated Convolution）是传统卷积的一种变体，其关键特点是在卷积核之间插入一定数量的“空洞”，从而扩大感受野而不增加计算量。它通过引入一个膨胀率（dilation rate）来决定卷积核中元素之间的跳跃步长。膨胀率是指卷积核中的元素之间相隔的步数。例如，膨胀率为1表示普通卷积，膨胀率为2表示卷积核中每个元素之间跳过1个像素来执行卷积操作。

空洞卷积的公式表示

在普通卷积中，卷积核的感受野是固定的，大小为 $k \times k$ 。而空洞卷积的感受野通过引入膨胀率 $d$ ，有效地将卷积核的感受野扩展为 $k_{effective}=k+(k-1)(d-1)$ ，其中k是卷积核的大小，d是膨胀率。
例如：
对于 $3 \times 3$ 的卷积核，当 $d = 1$ 时，卷积操作相当于普通的卷积；
当 $d = 2$ 时，卷积核的感受野扩大为 $5 \times 5$ ，但实际的卷积操作仍然使用9个参数，而不增加计算量。

空洞卷积的主要作用

空洞卷积主要通过膨胀感受野而保留分辨率，适用于需要对较大范围的信息进行处理的任务。它的主要作用包括：

（1）扩大感受野：通过膨胀率，空洞卷积能够有效扩大感受野，使得网络能够从更大范围的特征中提取信息，适合处理长距离依赖的场景，如图像语义分割或时间序列任务。

（2）保持空间分辨率：空洞卷积可以在不增加池化层的前提下扩大感受野，因此可以保持特征图的分辨率。相比于池化层，它不会丢失位置信息。

（3）减少计算开销：相比增加卷积核的尺寸或通过下采样来扩大感受野，空洞卷积无需额外增加卷积参数，因此更加高效。

空洞卷积 (Dilated Convolution)的应用场景：

图像语义分割：在语义分割任务中，需要精确地定位图像中的物体并进行分类。空洞卷积通过扩展感受野，可以在不降低分辨率的情况下，捕获更多的上下文信息。因此，空洞卷积在语义分割模型中广泛应用，如 DeepLab 系列网络。
时间序列建模：在处理时间序列或自然语言处理任务时，空洞卷积能够通过引入膨胀率捕捉长距离的依赖关系。这对于像 WaveNet 这样的任务非常重要，WaveNet 使用空洞卷积来实现更大时间窗口内的感知。
对象检测：在对象检测任务中，空洞卷积可以帮助网络更好地识别多尺度的物体，特别是当物体较大或较小时，通过调整膨胀率，可以让网络在多种尺度下进行信息提取。

空洞卷积 (Dilated Convolution)的代码实现：

以下是使用 TensorFlow 和 PyTorch 实现空洞卷积的代码示例。
TensorFlow 实现

import tensorflow as tf
from tensorflow.keras import layers

# 创建一个空洞卷积层，输入通道为64，输出通道为128，卷积核大小为3x3，膨胀率为2
input_tensor = tf.random.normal([1, 64, 64, 64])  # 输入形状为 (batch_size, height, width, channels)
dilated_conv = layers.Conv2D(128, kernel_size=3, strides=1, padding='same', dilation_rate=2)

# 通过空洞卷积处理输入
output_tensor = dilated_conv(input_tensor)
print(output_tensor.shape)  # 输出形状为 (1, 64, 64, 128)

PyTorch 实现

import torch
import torch.nn as nn

# 创建一个空洞卷积层，输入通道为64，输出通道为128，卷积核大小为3x3，膨胀率为2
input_tensor = torch.randn(1, 64, 64, 64)  # 输入形状为 (batch_size, channels, height, width)
dilated_conv = nn.Conv2d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=2, dilation=2)

# 通过空洞卷积处理输入
output_tensor = dilated_conv(input_tensor)
print(output_tensor.shape)  # 输出形状为 (1, 128, 64, 64)

参数解释

$k er n e l$ _ $s i ze = 3$ ：卷积核的大小为 $3 \times 3$
$d i l a t i o n$ _ $r a t e = 2$ （TenserFlow）或 $d i l a t i o n = 2$ （PyTorch）：膨胀率为 $2$ ，意味着卷积核元素之间跳过一个像素，从而有效扩展感受野
$p a dd in g =^{'} s am e^{'}$ （TenserFlow）或者 $p a dd in g = 2$ （PyTorch）：保持输入输出的空间大小不变