Deep MNIST for Experts解读(三):deepnn源码分析与AdamOptimizer

Deep MNIST for Experts解读(三):deepnn源码分析与AdamOptimizer
https://www.tensorflow.org/get_started/mnist/pros


mnist_deep.py
上节讲了卷积与最大池化,本节来看看deepnn
在概览中提到,deepnn分了如下几层:
1.第一卷积层
2.第二卷积层
3.全联接层
4.dropout层
5.输出层
结合代码分别标注下:


第一卷积层:
x_image = tf.reshape(x, [-1, 28, 28, 1])
作为conv2d的第一个输入,格式为[训练时一个batch的图片数量, 图片高度, 图片宽度, 输入通道数],上节讲过。输入通道灰色就只有1,RGB是3,RGBA是4.
# First convolutional layer - maps one grayscale image to 32 feature maps.
W_conv1 = weight_variable([5, 5, 1, 32])
初始化一个期望为0,标准差为0.1的正态分布,四维张量,为作conv2d的第二个输入,格式为:[卷积核的高度,卷积核的宽度,输入通道数,输出通道数]。
b_conv1 = bias_variable([32])
一个有32个0.1的向量。
解读下:图片是28*28,多少张图片待定,黑白图片,所以是1个输入通道,卷积核5*5,32个输出通道。为啥是32个输出通道?32个feature maps。这个其实不太好理解。通俗的讲,就是源码希望在这一卷积层捕获到32个特征。具体解释推荐:https://www.zhihu.com/question/31318081。
一张图(矩阵)经过卷积核(kernal)卷积运算之后得到的一张新的图(矩阵),就是feature map。为什么是32个feature map,主要靠经验。深度学习模型有好些超参数的设置都得靠经验。
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
卷积,加入干扰,再线性修正,上章讲过。
h_pool1 = max_pool_2x2(h_conv1)
最大池化,上章讲过。


第二卷积层:
 # Second convolutional layer -- maps 32 feature maps to 64.
  W_conv2 = weight_variable([5, 5, 32, 64])
  b_conv2 = bias_variable([64])
  h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
  h_pool2 = max_pool_2x2(h_conv2)
输入通道32,即第一层的输出通道数,32个feature maps,第二次希望获取到更多的特征,映射到64个feature maps.


全联接层:
第一卷积层把图片缩减采样成14*14,第二卷积层缩为7*7,每张图获取了64个特征图(有64个输出通道),共计3136个特征图。
更直观的理解:二个卷积运算下来,输出为64个矩阵,每个7*7,每个点都表示一个feature map,共计3136个元素点。
在全联接层中,把3136个特征归积到1024个特征中去。
  # Fully connected layer 1 -- after 2 round of downsampling, our 28x28 image
  # is down to 7x7x64 feature maps -- maps this to 1024 features.
  W_fc1 = weight_variable([7 * 7 * 64, 1024])
  b_fc1 = bias_variable([1024])
  h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
  h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
代码本身不难,就是一个标准矩阵乘法,加法和线性修正。
简单的讲,学习输出要经历:原始数据--》隐层特征空间和分布式特征表示--》样本标记空间。
得到3136个特征图完成了第一步,还必须有一个全联接层完成第二步转换。


dropout层:
  # Dropout - controls the complexity of the model, prevents co-adaptation of
  # features.
  keep_prob = tf.placeholder(tf.float32)
  h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
控制模型复杂度,阻止功能同化。这句话说得很隐晦。
keep_prob指keep probability,保持概率,保有概率。keep_prob在main中做训练时使用了0.5,即每次训练,每个神经元有一半的机会参加。
主要理解dropout的作用。dropout,汉语翻译为剪枝,类似于对花草分枝的修剪,就是在训练过程中剪掉某些神经元,不让它参与本次训练,这样做的目标是为了防止过拟合,增加模型的健壮性,同时减少训练的计算量。参考阅读:http://blog.csdn.net/huahuazhu/article/details/73649389


输出层:
  # Map the 1024 features to 10 classes, one for each digit
  W_fc2 = weight_variable([1024, 10])
  b_fc2 = bias_variable([10])


  y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2
把1024个特征映射到10个分类中去(0-9)。


小结一下:
1.第一卷积层:读图片,每个图片学习32个特征图,输出一个14*14的卷积,14*14*32=6272。
2.第二卷积层:根据上层,每个卷积学习64个特征图,输出一个7*7的卷积,7*7*64=3136。
3.全联接层:根据上层,把7*7*64个feature maps映射到1024个feature。
4.dropout层:剪枝式的强化训练。
5.输出层:把1024个feature映射到0-9共计10类分类中。
有了前面的理解,这里读代码并不难,主要是理解feature map, feature,dropout和 classes.


这里说完了第二个遗留问题。下面说一下第三个遗留问题。
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
对比之前在softmax中的代码:
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
这里选用了AdamOptimizer优化器。
使用的是Adam算法。
源码推荐文档:http://arxiv.org/pdf/1412.6980.pdf。
简单了解的话,看看http://blog.csdn.net/muyu709287760/article/details/62531509#7-adam


Deep MNIST for Experts解读就说完了,结合前面的两篇博客,再读读mnist_deep.py,你能看懂吗。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值