tf.layers.conv2d_transpose 反卷积

最新推荐文章于 2025-09-11 19:47:18 发布

原创最新推荐文章于 2025-09-11 19:47:18 发布 · 1.8w 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#反卷积 #TensorFlow

tensorflow 专栏收录该内容

8 篇文章

订阅专栏

本文详细解释了tf.layers.conv2d_transpose函数的工作原理，包括其参数设置、反卷积过程及具体步骤，并通过实例展示了如何使用该函数实现图像尺寸的放大。

tf.layers.conv2d_transpose

参数

conv2d_transpose(
inputs,
filters,
kernel_size,
strides=(1, 1),
padding=’valid’,
data_format=’channels_last’,
activation=None,
use_bias=True,
kernel_initializer=None,
bias_initializer=tf.zeros_initializer(),
kernel_regularizer=None,
bias_regularizer=None,
activity_regularizer=None,
kernel_constraint=None,
bias_constraint=None,
trainable=True,
name=None,
reuse=None
)

比较关注的参数：

inputs: 输入的张量
filters: 输出卷积核的数量
kernel_size : 在卷积操作中卷积核的大小
strides: （不太理解，我直接理解成放大的倍数）
padding : ‘valid’ 或者 ‘same’。

反卷积的过程

Step 1 扩充: 将 inputs 进行填充扩大。扩大的倍数与strides有关。扩大的方式是在元素之间插strides - 1 个 0
Step 2 卷积: 对扩充变大的矩阵，用大小为kernel_size卷积核做卷积操作，这样的卷积核有filters个，并且这里的步长为1(与参数strides无关，一定是1)

举个例子：

inputs：[ [1, 1], [2,2] ]
strides = 2(扩大2倍)
filters = 1
kernel_size = 3(假设核的值都是1)
padding = ‘same’

Step 1：[2,2] 扩大至 [4,4]

问题描述：一个矩阵 $X$ ，通过 3*3 大小的卷积核，以 ‘same’的padding形式，步长为2做卷积，得到 [[1,1],[2,2]]，问 $X$ 长啥样
$[1212] \to ⎡ ⎣ ⎢ ⎢ ⎢ 0000010200000102 ⎤ ⎦ ⎥ ⎥ ⎥$ $\begin{bmatrix} 1 & 1 \\ 2 & 2 \end{bmatrix} \rightarrow \begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 2 & 0 & 2 \end{bmatrix}$
通过填充，让原来2*2的矩阵变成4*4。填充的方式是我自己根据代码给出的结果猜的，大概就是先在元素之间插strides - 1个0，然后在填充边缘使矩阵达到目标尺寸。
目标尺寸可以根据下面的公式来求：
$⌊ (x - k + 2 * p) / s ⌋ + 1 = o (1)$ $\lfloor (x - k + 2*p)/s\rfloor + 1 = o \tag{1}$
其中 $x$ 为目标尺寸， $k$ 是卷积核的尺寸, $p$ 表示填充的个数, $o$ 表示输出的尺寸, $s$ 表示步长。
在这里， $k,p,s,o$ 都是已知的，求 $x$ 即可。但是因为有取整操作，实际上会有两个值符合 $x$ ，似乎是取大的那个。
在这个例子中 $k=3,p=1,s=2,o=2$ ，得到 $x=4或x=3$ ，取大的那个，所以 $x=4$

Step 2 : 做卷积，卷积核大小3*3，步长为1

⎡ ⎣ ⎢ ⎢ ⎢ 0000010200000102 ⎤ ⎦ ⎥ ⎥ ⎥ \to ⎡ ⎣ ⎢ ⎢ ⎢ 1132113222641132 ⎤ ⎦ ⎥ ⎥ ⎥

$\begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 2 & 0 & 2 \end{bmatrix} \rightarrow \begin{bmatrix} 1 & 1 & 2 & 1\\ 1 & 1 & 2 & 1\\ 3 & 3 & 6 & 3 \\ 2 & 2 & 4 & 2 \end{bmatrix}$
这一步就是普通的做卷积操作。

上代码

a = np.array([[1,1],[2,2]], dtype=np.float32)
# [[1,1],
#  [2,2]]

# tf.layers.conv2d_transpose 要求输入是4维的
a = np.reshape(a, [1,2,2,1])

# 定义输入
x = tf.constant(a,dtype=tf.float32)
# 进行tf.layers.conv2d_transpose
upsample_x = tf.layers.conv2d_transpose(x, 1, 3, strides=2, padding='same', kernel_initializer=tf.ones_initializer())
with tf.Session() as sess:
    tf.global_variables_initializer().run()
    print(sess.run(upsample_x))
    # [[[[1],[1],[2],[1]],
    #   [[1],[1],[2],[1]],
    #   [[3],[3],[6],[3]],
    #   [[2],[2],[4],[2]]]]