实例理解卷积与池化操作前后的图像大小变化以及padding参数的含义

**

实例理解卷积与池化操作前后的图像大小变化以及padding参数的含义

**

引言

  • 最近因为毕设在学卷积神经网络,一直比较困惑卷积或者池化操作以后图像如何发生变化。在网上查了不少资料,可以找到一些公式,但是并没有详细说明使用情境且很少实例讲解。因此我总结前人的工作,整理成一个博客,算是自己学习的一个记录,也希望能够帮助到一些CNN学习者。
  • 我参考的博客有padding填充same 和valid两种方式
    卷积神经网络池化后的特征图大小计算
  • 本文若有侵权,请联系本人进行删除或者修改。

padding参数

  • padding是tensorflow中卷积、池化API中必需的一个参数,有’SAME’和’VALID’两个值。当padding='SAME’时会对输入图像(下边代码中的x)的边缘用0填充,不少博客有说padding='SAME’时,输入和输出图像可以保持大小不变,这个说法是片面的,为什么下边会讲到。padding='VALID’时,则不对输入图像边缘填充,故图像大小一定缩小。

卷积、池化前后图像尺寸变化详解

  • 相关参数说明
    stride,步长,表示为S;
    width,输入图像宽度,表示为W;
    height,输入图像高度,表示为H;
    filter,卷积核,表示为F;
    本博客假设W与H相等。

  • 卷积操作
    stride=[1,1,1,1]时:
    padding=‘SAME’,卷积操作后图片大小不变
    padding=‘VALID’,output_height=output_width = (W – F + 1) / S (结果向上取整)

    stride≠[1,1,1,1]时:
    padding=‘SAME’,output_height = output_width = W / S (结果向上取整)
    padding=‘VALID’,output_height = output_width = (W – F + 1) / S(结果向上取整)

  • 池化操作
    池化层通常以卷积层为输入,故此处的W和H分别为卷积层输出的featuremap的宽或者高,F为池化时的ksize的大小,S仍为步长
    stride≠[1,1,1,1]时:
    padding='SAME’时,output_height = output_width = W / S或者H / S (结果向上取整)
    padding='VALID’时,output_width = (W - F) / S + 1,output_height = (H - F) / S + 1

    stride=[1,1,1,1]时:
    padding='SAME’时,池化后featuremap大小不变,output_width =
    W,output_height = H
    padding=‘VALID’,output_height=output_width = (W – F + 1) / S

实例代码

import tensorflow as tf


# 定义卷积核
kernel = tf.Variable(tf.truncated_normal([11, 11, 3, 96], dtype=tf.float32,
                                         stddev=1e-1), name='weights')
# 定义输入x,默认图像大小224*224,RGB3通道,1张图片
x = tf.Variable(tf.constant(1,shape=[1,224,224,3],dtype=tf.float32))
biases = tf.Variable(tf.constant(0.0, shape=[96], dtype=tf.float32),
                     trainable=True, name='biases')
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# 测试卷积层中padding的公式
# stride=1时
# 通过打印变量,对比shape的变化,看图像尺寸大小的变化
print("stride=1时公式验证")
conv_s1_same = tf.nn.conv2d(x, kernel, [1, 1, 1, 1], padding='SAME')
conv_s1_valid = tf.nn.conv2d(x, kernel, [1, 1, 1, 1], padding='VALID')
print("x:   ", x)
print("conv_s1_same:   ", conv_s1_same)
print("conv_s1_valid:   ", conv_s1_valid)

#stride>1时,此处stride=4
print("\nstride=4时公式验证")
conv_s4_same = tf.nn.conv2d(x, kernel, [1, 4, 4, 1], padding='SAME')
conv_s4_valid = tf.nn.conv2d(x, kernel, [1, 4, 4, 1], padding='VALID')
# 通过打印变量,对比shape的变化,看图像尺寸大小的变化
print("x:   ", x)
print("conv_s4_same:   ", conv_s4_same)
print("conv_s4_valid:   ", conv_s4_valid)


# 以conv_s4_same作为输入验证池化操作后图像大小变化
# 通过打印变量,对比shape的变化,看图像尺寸大小的变化
print("\nstride=3时公式验证")
pool_s3_same = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 3, 3, 1],padding='SAME')
pool_s3_valid = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 3, 3, 1],padding='VALID')
print("conv_s4_same:   ", conv_s4_same)
print("pool_s3_same:    ", pool_s3_same)
print("pool_s3_valid:    ", pool_s3_valid)

print("\nstride=1时公式验证")
pool_s1_same = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 1, 1, 1],padding='SAME')
pool_s1_valid = tf.nn.max_pool(conv_s4_same,ksize=[1, 3, 3, 1],strides=[1, 1, 1, 1],padding='VALID')
print("conv_s4_same:   ", conv_s4_same)
print("pool_s1_same:    ", pool_s1_same)
print("pool_s1_valid:    ", pool_s1_valid)

结果分析

  • 此部分为上面的代码运行结果显示,并非代码!!!

# 卷积操作前后图像大小变化
stride=1时公式验证
x:    <tf.Variable 'Variable_14:0' shape=(1, 224, 224, 3) dtype=float32_ref>
conv_s1_same:    Tensor("Conv2D_27:0", shape=(1, 224, 224, 96), dtype=float32)
conv_s1_valid:    Tensor("Conv2D_28:0", shape=(1, 214, 214, 96), dtype=float32)

stride=4时公式验证
x:    <tf.Variable 'Variable_14:0' shape=(1, 224, 224, 3) dtype=float32_ref>
conv_s4_same:    Tensor("Conv2D_29:0", shape=(1, 56, 56, 96), dtype=float32)
conv_s4_valid:    Tensor("Conv2D_30:0", shape=(1, 54, 54, 96), dtype=float32)

# 池化操作后featuremap大小变化
stride=3时公式验证
conv_s4_same:    Tensor("Conv2D_45:0", shape=(1, 56, 56, 96), dtype=float32)
pool_s3_same:     Tensor("MaxPool_18:0", shape=(1, 19, 19, 96), dtype=float32)
pool_s3_valid:     Tensor("MaxPool_19:0", shape=(1, 18, 18, 96), dtype=float32)

stride=1时公式验证
conv_s4_same:    Tensor("Conv2D_45:0", shape=(1, 56, 56, 96), dtype=float32)
pool_s1_same:     Tensor("MaxPool_20:0", shape=(1, 56, 56, 96), dtype=float32)
pool_s1_valid:     Tensor("MaxPool_21:0", shape=(1, 54, 54, 96), dtype=float32)

卷积前后变化分析,输入图像224*224,步长为1时,SAME模式下,输出大小没变化,见conv_s1_same;VALID模式下,输出高度宽度等于(224-11+1)/1=214,见conv_s1_valid;步长为4时,SAME模式下,输出宽高等于224/4=56,见conv_s4_same;VALID模式下,输出宽高等于(224-11+1)/4向上取整为54,见conv_s4_valid。

池化前后变化分析,输入featuremap尺寸56*56,步长为3时,SAME模式下,输出高宽为56/3,向上取整为19,见pool_s1_same;VALID模式下,输出高宽为(56-3+1)/3=18,见pool_s3_valid;步长为1时,SAME模式下,输出高宽不变,见pool_s1_same;VALID模式下,输出高宽为(56-3+1)/1=54,见pool_s1_valid。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
图像去噪是计算机视觉领域中一个非常重要的任务,而高斯噪声是图像中最常见的噪声之一。在深度学习领域,卷积神经网络(CNN)是一个非常强大的工具,可以用于图像去噪任务。下面是一个基于CNN的图像去噪实例,使用了高斯噪声。 首先,我们需要准备一些带有高斯噪声的图像作为数据集。可以使用Python中的OpenCV库来生成带有高斯噪声的图像。下面的代码片段可以生成一个带有高斯噪声的图像: ``` import cv2 import numpy as np def add_gaussian_noise(image): row, col, ch = image.shape mean = 0 var = 0.1 sigma = var ** 0.5 gauss = np.random.normal(mean, sigma, (row, col, ch)) gauss = gauss.reshape(row, col, ch) noisy = image + gauss return noisy ``` 这个函数接受一张图像作为输入,然后为每个像素添加高斯噪声。参数`mean`指定高斯分布的平均值,这里取0;参数`var`指定方差,这里取0.1;然后计算出标准差`sigma`,最后使用`np.random.normal`函数生成高斯分布的噪声,将其加到输入图像上,返回带有高斯噪声的图像。 接下来,我们可以使用这个函数生成一些数据集。在这个实例中,我们将使用MNIST数据集。我们将使用MNIST数据集中的数字图像,分别添加不同强度的高斯噪声,然后将带有噪声的图像作为输入,原始图像作为输出,训练CNN模型进行图像去噪。 下面的代码片段可以生成带有不同强度高斯噪声的MNIST图像: ``` from keras.datasets import mnist (x_train, y_train), (x_test, y_test) = mnist.load_data() noisy_images = [] for image in x_train: noisy_image = add_gaussian_noise(image) noisy_images.append(noisy_image) noisy_images = np.array(noisy_images) ``` 这个代码片段中,我们首先从Keras库中加载MNIST数据集,然后对训练集中的每张图像都生成一个带有高斯噪声的图像。最后,我们将所有的带有噪声的图像存储在一个数组中。 接下来,我们可以使用这些带有噪声的图像作为输入,原始图像作为输出,训练CNN模型进行图像去噪。下面是一个简单的卷积神经网络模型,可以用于图像去噪任务: ``` from keras.models import Sequential from keras.layers import Conv2D, MaxPooling2D, UpSampling2D model = Sequential() model.add(Conv2D(32, (3, 3), activation='relu', padding='same', input_shape=(28, 28, 1))) model.add(MaxPooling2D((2, 2), padding='same')) model.add(Conv2D(64, (3, 3), activation='relu', padding='same')) model.add(MaxPooling2D((2, 2), padding='same')) model.add(Conv2D(128, (3, 3), activation='relu', padding='same')) model.add(Conv2D(128, (3, 3), activation='relu', padding='same')) model.add(UpSampling2D((2, 2))) model.add(Conv2D(64, (3, 3), activation='relu', padding='same')) model.add(UpSampling2D((2, 2))) model.add(Conv2D(32, (3, 3), activation='relu', padding='same')) model.add(Conv2D(1, (3, 3), activation='sigmoid', padding='same')) model.compile(optimizer='adam', loss='binary_crossentropy') ``` 这个模型使用了卷积层、池化层和上采样层,以及一个sigmoid激活函数的输出层。损失函数使用的是二元交叉熵。我们使用带有高斯噪声的图像作为输入,原始图像作为输出,训练这个模型进行图像去噪。 下面的代码片段可以训练这个CNN模型: ``` model.fit(noisy_images.reshape(-1, 28, 28, 1), x_train.reshape(-1, 28, 28, 1), epochs=10, batch_size=128, validation_split=0.2) ``` 这个代码片段中,我们使用`fit`函数进行模型训练。我们将带有高斯噪声的图像作为输入,原始图像作为输出。我们将训练集中的80%作为训练集,20%作为验证集。我们将训练10个epoch,每个batch包含128个样本。 最后,我们可以使用训练好的模型对带有高斯噪声的图像进行去噪。下面的代码片段可以对MNIST测试集中的图像进行去噪: ``` denoised_images = model.predict(x_test.reshape(-1, 28, 28, 1)) import matplotlib.pyplot as plt n = 10 plt.figure(figsize=(20, 4)) for i in range(n): # 原始图像 ax = plt.subplot(2, n, i + 1) plt.imshow(x_test[i]) plt.gray() ax.get_xaxis().set_visible(False) ax.get_yaxis().set_visible(False) # 带有高斯噪声的图像 ax = plt.subplot(2, n, i + 1 + n) plt.imshow(noisy_images[i]) plt.gray() ax.get_xaxis().set_visible(False) ax.get_yaxis().set_visible(False) # 去噪后的图像 ax = plt.subplot(2, n, i + 1 + n*2) plt.imshow(denoised_images[i].reshape(28, 28)) plt.gray() ax.get_xaxis().set_visible(False) ax.get_yaxis().set_visible(False) plt.show() ``` 这个代码片段中,我们使用`predict`函数对测试集中的图像进行去噪,并将结果可视化。我们分别展示了原始图像、带有高斯噪声的图像和去噪后的图像。下面是一些可视化结果: ![image](https://user-images.githubusercontent.com/26948028/119836548-8a3b1780-bf31-11eb-8f3a-9b5a1f82d5f5.png) 可以看到,使用卷积神经网络进行图像去噪任务可以得到非常好的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值