Deep MNIST for Experts解读（三）：deepnn源码分析与AdamOptimizer

最新推荐文章于 2023-09-08 20:38:11 发布

vagrantabc2017

最新推荐文章于 2023-09-08 20:38:11 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习文章标签：机器学习 matrix mnist tensorflow python

本文链接：https://blog.csdn.net/vagrantabc2017/article/details/77196872

版权

深度学习专栏收录该内容

27 篇文章 0 订阅

订阅专栏

Deep MNIST for Experts解读（三）：deepnn源码分析与AdamOptimizer
https://www.tensorflow.org/get_started/mnist/pros

mnist_deep.py
上节讲了卷积与最大池化，本节来看看deepnn
在概览中提到，deepnn分了如下几层：
1.第一卷积层
2.第二卷积层
3.全联接层
4.dropout层
5.输出层
结合代码分别标注下：

第一卷积层：
x_image = tf.reshape(x, [-1, 28, 28, 1])
作为conv2d的第一个输入，格式为[训练时一个batch的图片数量, 图片高度, 图片宽度, 输入通道数]，上节讲过。输入通道灰色就只有1，RGB是3，RGBA是4.
# First convolutional layer - maps one grayscale image to 32 feature maps.
W_conv1 = weight_variable([5, 5, 1, 32])
初始化一个期望为0，标准差为0.1的正态分布，四维张量，为作conv2d的第二个输入，格式为：[卷积核的高度，卷积核的宽度，输入通道数，输出通道数]。
b_conv1 = bias_variable([32])
一个有32个0.1的向量。
解读下：图片是28*28，多少张图片待定，黑白图片，所以是1个输入通道，卷积核5*5，32个输出通道。为啥是32个输出通道？32个feature maps。这个其实不太好理解。通俗的讲，就是源码希望在这一卷积层捕获到32个特征。具体解释推荐：https://www.zhihu.com/question/31318081。
一张图（矩阵）经过卷积核（kernal）卷积运算之后得到的一张新的图（矩阵），就是feature map。为什么是32个feature map，主要靠经验。深度学习模型有好些超参数的设置都得靠经验。
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
卷积，加入干扰，再线性修正，上章讲过。
h_pool1 = max_pool_2x2(h_conv1)
最大池化，上章讲过。

第二卷积层：
# Second convolutional layer -- maps 32 feature maps to 64.
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
输入通道32，即第一层的输出通道数，32个feature maps，第二次希望获取到更多的特征，映射到64个feature maps.

全联接层：
第一卷积层把图片缩减采样成14*14,第二卷积层缩为7*7，每张图获取了64个特征图(有64个输出通道)，共计3136个特征图。
更直观的理解：二个卷积运算下来，输出为64个矩阵，每个7*7，每个点都表示一个feature map，共计3136个元素点。
在全联接层中，把3136个特征归积到1024个特征中去。
# Fully connected layer 1 -- after 2 round of downsampling, our 28x28 image
# is down to 7x7x64 feature maps -- maps this to 1024 features.
W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
代码本身不难，就是一个标准矩阵乘法，加法和线性修正。
简单的讲，学习输出要经历：原始数据--》隐层特征空间和分布式特征表示--》样本标记空间。
得到3136个特征图完成了第一步，还必须有一个全联接层完成第二步转换。

dropout层：
# Dropout - controls the complexity of the model, prevents co-adaptation of
# features.
keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
控制模型复杂度，阻止功能同化。这句话说得很隐晦。
keep_prob指keep probability，保持概率，保有概率。keep_prob在main中做训练时使用了0.5，即每次训练，每个神经元有一半的机会参加。
主要理解dropout的作用。dropout，汉语翻译为剪枝，类似于对花草分枝的修剪，就是在训练过程中剪掉某些神经元，不让它参与本次训练，这样做的目标是为了防止过拟合，增加模型的健壮性，同时减少训练的计算量。参考阅读：http://blog.csdn.net/huahuazhu/article/details/73649389

输出层：
# Map the 1024 features to 10 classes, one for each digit
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])

y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2
把1024个特征映射到10个分类中去(0-9)。

小结一下：
1.第一卷积层：读图片，每个图片学习32个特征图，输出一个14*14的卷积，14*14*32=6272。
2.第二卷积层：根据上层，每个卷积学习64个特征图，输出一个7*7的卷积，7*7*64=3136。
3.全联接层：根据上层，把7*7*64个feature maps映射到1024个feature。
4.dropout层：剪枝式的强化训练。
5.输出层：把1024个feature映射到0-9共计10类分类中。
有了前面的理解，这里读代码并不难，主要是理解feature map, feature，dropout和 classes.

这里说完了第二个遗留问题。下面说一下第三个遗留问题。
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
对比之前在softmax中的代码：
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
这里选用了AdamOptimizer优化器。
使用的是Adam算法。
源码推荐文档：http://arxiv.org/pdf/1412.6980.pdf。
简单了解的话，看看http://blog.csdn.net/muyu709287760/article/details/62531509#7-adam

Deep MNIST for Experts解读就说完了，结合前面的两篇博客，再读读mnist_deep.py，你能看懂吗。

vagrantabc2017

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Deep MNIST for Experts解读（三）：deepnn源码分析与AdamOptimizer

Deep MNIST for Experts解读（三）：deepnn源码分析与AdamOptimizerhttps://www.tensorflow.org/get_started/mnist/prosmnist_deep.py上节讲了卷积与最大池化，本节来看看deepnn在概览中提到，deepnn分了如下几层：1.第一卷积层2.第二卷积层3.全联接层4.d
复制链接

扫一扫