torch.nn.Conv2d()与slim.conv2d()函数参数详解

daijingxin

于 2024-03-16 20:55:10 发布

阅读量1.1k

点赞数 19

文章标签： python

本文链接：https://blog.csdn.net/daijingxin/article/details/136769400

版权

1. tf.nn.conv2d()函数

tensorflow构建网络模型时常用的卷积函数了，定义如下；

conv2d(input, filter, strides, padding, use_cudnn_on_gpu=True, 
       data_format="NHWC", dilations=[1, 1, 1, 1], name=None):

1.1 input：

输入的tensor，被卷积的图像，conv2d要求input必须是四维的。四个维度分别为[batch, in_height, in_width, in_channels]，即batch size，输入图像的高和宽以及单张图像的通道数。

1.2 filter：

卷积核，也要求是四维，[filter_height, filter_width, in_channels, out_channels]四个维度分别表示卷积核的高、宽，输入图像的通道数和卷积输出通道数。其中in_channels大小需要与 input 的in_channels一致。

1.3 strides：

步长，即卷积核在与图像做卷积的过程中每次移动的距离，一般定义为[1，stride_h,stride_w,1]，stride_h与stride_w分别表示在高的方向和宽的方向的移动的步长，第一个1表示在batch上移动的步长，最后一个1表示在通道维度移动的步长，而目前tensorflow规定：strides[0] = strides[3] = 1，即不允许跳过bacth和通道，前面的动态图中的stride_h与stride_w均为1。

1.4 padding：

边缘处理方式，值为“SAME” 和 “VALID”，熟悉图像卷积操作的朋友应该都熟悉这两种模式；由于卷积核是有尺寸的，当卷积核移动到边缘时，卷积核中的部分元素没有对应的像素值与之匹配。此时选择“SAME”模式，则在对应的位置补零，继续完成卷积运算，在strides为[1,1,1,1]的情况下，卷积操作前后图像尺寸不变即为“SAME”。若选择 “VALID”模式，则在边缘处不进行卷积运算，若运算后图像的尺寸会变小。

2.tf.contrib.slim.conv2d()函数

convolution(inputs,num_outputs,kernel_size,stride=1,padding='SAME',data_format=None,            rate=1,activation_fn=nn.relu,normalizer_fn=None,normalizer_params=None,weights_initializer=initializers.xavier_initializer(),    weights_regularizer=None,biases_initializer=init_ops.zeros_initializer(),biases_regularizer=None,        reuse=None,variables_collections=None,outputs_collections=None,trainable=True,cope=None):

主要的参数依然是inputs，num_outputs，kernel_size，stride，padding。使用slim.conv2d函数进行卷积操作，不需要单独定义卷积层，激活函数，甚至是偏置。

示例

input_img=tf.Variable(tf.constant(10,dtype=tf.float32,shape=[1,10,10,3]))#定义输入图像

W1=tf.Variable(tf.truncated_normal([5,5,3,4],stddev=0.1))#定义卷积核
conv1=tf.nn.conv2d(input_img,W1,strides=[1,2,2,1],padding='SAME')
relu1=tf.nn.relu(conv1)

conv4=slim.conv2d(input_imgg,4,[5,5],strides=2,padding='SAME')

3. torch.nn.Conv2d()函数

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)

在这里插入图片描述

3.1 官方例子：

1）方形卷积核、行列相同步长（With square kernels and equal stride）

m = nn.Conv2d(16, 33, 3, stride=2)

2）非方形卷积核、行列采用不同步长，并进行扩边

m = nn.Conv2d(16, 33, (3, 5), stride=(2, 1), padding=(4, 2))

3）非方形卷积核、行列采用不同步长、数据采用稀疏，并进行扩边

m = nn.Conv2d(16, 33, (3, 5), stride=(2, 1), padding=(4, 2), dilation=(3, 1))