tensorflow学习笔记之conv2d函数使用

最新推荐文章于 2023-12-01 18:25:46 发布

灯晃码农liuxin

最新推荐文章于 2023-12-01 18:25:46 发布

阅读量1.2k

点赞数

分类专栏：机器视觉文章标签： tensorflow

本文链接：https://blog.csdn.net/qq_20549061/article/details/86245100

版权

机器视觉专栏收录该内容

16 篇文章 2 订阅

订阅专栏

卷积操作

conv2d详解

tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None)

除去name参数用以指定该操作的name，与方法有关的一共五个参数：

input：
指需要做卷积的输入图像，它要求是一个Tensor，具有[batch, in_height, in_width, in_channels]这样的shape，具体含义是[训练时一个batch的图片数量, 图片高度, 图片宽度, 图像通道数]，注意这是一个4维的Tensor，要求类型为float32和float64其中之一；
filter：
相当于CNN中的卷积核，它要求是一个Tensor，具有[filter_height, filter_width, in_channels, out_channels]这样的shape，具体含义是[卷积核的高度，卷积核的宽度，图像通道数，卷积核个数]，要求类型与参数input相同，有一个地方需要注意，第三维in_channels，就是参数input的第四维；
strides：
卷积时在图像每一维的步长，这是一个一维的向量，长度4
padding： string类型的量，只能是”SAME”,”VALID”其中之一，这个值决定了不同的卷积方式
use_cudnn_on_gpu： bool类型，是否使用cudnn加速，默认为true
结果返回一个Tensor，这个输出，就是我们常说的feature map

import tensorflow as tf

#输入1张28*28的图片，通道数3，
input = tf.Variable(tf.random_normal([1,3,3,3]))
#卷积核2*2,3个通道，3个卷积核
filter = tf.Variable(tf.random_normal([2,2,3,1]))

# op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='SAME')

op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='VALID')

init = tf.initialize_all_variables()
with tf.Session() as sess:
    sess.run(init)
    print(sess.run(filter))

从这段代码可以很明显的看出，对于参数input和filter，他们的定义方式相同，但是对于他们的shape却代表不同的意义
对于input具有[batch, in_height, in_width, in_channels]这样的shape；
对于filter具有[filter_height, filter_width, in_channels, out_channels]这样的shape

说明input这个矩阵与filter这个矩阵在conv2d这个处理过程中，他们的维度有了不同的意义。

max_pool详解

max pooling是CNN当中的最大值池化操作，其实用法和卷积很类似

有些地方可以从卷积去参考【TensorFlow】tf.nn.conv2d是怎样实现卷积的？

tf.nn.max_pool(value, ksize, strides, padding, name=None)
参数是四个，和卷积很类似：
第一个参数value： 需要池化的输入，一般池化层接在卷积层后面，所以输入通常是feature map，依然是 [batch, height, width, channels] 这样的shape

第二个参数ksize： 池化窗口的大小，取一个四维向量，一般是 [1, height, width, 1]，因为我们不想在batch和channels上做池化，所以这两个维度设为了1

第三个参数strides： 和卷积类似，窗口在每一个维度上滑动的步长，一般也是 [1, stride,stride, 1]

第四个参数padding： 和卷积类似，可以取 ‘VALID’ 或者’SAME’

返回一个Tensor，类型不变，shape仍然是[batch, height, width, channels]这种形式
例如：

import tensorflow as tf

#输入1张28*28的图片，通道数3，
input = tf.Variable(tf.random_normal([1,28,28,3]))
#1个卷积核
filter = tf.Variable(tf.random_normal([5,5,3,1]))

# op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='SAME')

op1 = tf.nn.conv2d(input,filter,strides=[1,1,1,1],padding='SAME')

#这里的输入是28x28的矩阵
op2 = tf.nn.max_pool(op1,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

init = tf.initialize_all_variables()
with tf.Session() as sess:
    sess.run(init)
    print(sess.run(op2).shape) #池化后的尺寸为14x14

这里有个问题就是padding参数，是否补齐。
假设对于一个5x5的矩阵，利用2x2的，步长为2的窗口进行滑动，就可能会存在有部分元素未被滑动窗口覆盖，如果选择SAME参数，就会自动补齐到6x6的shape保证所有窗口能被覆盖。

灯晃码农liuxin

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
tensorflow学习笔记之conv2d函数使用

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入卷积操作t...
复制链接

扫一扫