tensorflow学习笔记之conv2d函数使用

卷积操作

conv2d详解

tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None)

除去name参数用以指定该操作的name,与方法有关的一共五个参数:

input:
指需要做卷积的输入图像,它要求是一个Tensor,具有[batch, in_height, in_width, in_channels]这样的shape,具体含义是[训练时一个batch的图片数量, 图片高度, 图片宽度, 图像通道数],注意这是一个4维的Tensor,要求类型为float32和float64其中之一;
filter:
相当于CNN中的卷积核,它要求是一个Tensor,具有[filter_height, filter_width, in_channels, out_channels]这样的shape,具体含义是[卷积核的高度,卷积核的宽度,图像通道数,卷积核个数],要求类型与参数input相同,有一个地方需要注意,第三维in_channels,就是参数input的第四维;
strides:
卷积时在图像每一维的步长,这是一个一维的向量,长度4
padding: string类型的量,只能是”SAME”,”VALID”其中之一,这个值决定了不同的卷积方式
use_cudnn_on_gpu: bool类型,是否使用cudnn加速,默认为true
结果返回一个Tensor,这个输出,就是我们常说的feature map

import tensorflow as tf

#输入1张28*28的图片,通道数3,
input = tf.Variable(tf.random_normal([1,3,3,3]))
#卷积核2*2,3个通道,3个卷积核
filter = tf.Variable(tf.random_normal([2,2,3,1]))

# op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='SAME')

op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='VALID')

init = tf.initialize_all_variables()
with tf.Session() as sess:
    sess.run(init)
    print(sess.run(filter))

从这段代码可以很明显的看出,对于参数input和filter,他们的定义方式相同,但是对于他们的shape却代表不同的意义
对于input具有[batch, in_height, in_width, in_channels]这样的shape;
对于filter具有[filter_height, filter_width, in_channels, out_channels]这样的shape

说明input这个矩阵与filter这个矩阵在conv2d这个处理过程中,他们的维度有了不同的意义。

max_pool详解

max pooling是CNN当中的最大值池化操作,其实用法和卷积很类似

有些地方可以从卷积去参考【TensorFlow】tf.nn.conv2d是怎样实现卷积的?

tf.nn.max_pool(value, ksize, strides, padding, name=None)
参数是四个,和卷积很类似:
第一个参数value: 需要池化的输入,一般池化层接在卷积层后面,所以输入通常是feature map,依然是 [batch, height, width, channels] 这样的shape

第二个参数ksize: 池化窗口的大小,取一个四维向量,一般是 [1, height, width, 1],因为我们不想在batch和channels上做池化,所以这两个维度设为了1

第三个参数strides: 和卷积类似,窗口在每一个维度上滑动的步长,一般也是 [1, stride,stride, 1]

第四个参数padding: 和卷积类似,可以取 ‘VALID’ 或者’SAME’

返回一个Tensor,类型不变,shape仍然是[batch, height, width, channels]这种形式
例如:

import tensorflow as tf

#输入1张28*28的图片,通道数3,
input = tf.Variable(tf.random_normal([1,28,28,3]))
#1个卷积核
filter = tf.Variable(tf.random_normal([5,5,3,1]))

# op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='SAME')

op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='SAME')

#这里的输入是28x28的矩阵
op2 = tf.nn.max_pool(op1,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

init = tf.initialize_all_variables()
with tf.Session() as sess:
    sess.run(init)
    print(sess.run(op2).shape) #池化后的尺寸为14x14

这里有个问题就是padding参数,是否补齐。
假设对于一个5x5的矩阵,利用2x2的,步长为2的窗口进行滑动,就可能会存在有部分元素未被滑动窗口覆盖,如果选择SAME参数,就会自动补齐到6x6的shape保证所有窗口能被覆盖。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值