[Tensorflow] Batch Normalization实现

最新推荐文章于 2019-07-16 22:33:56 发布

vcvycy

最新推荐文章于 2019-07-16 22:33:56 发布

阅读量2k

点赞数 1

本文链接：https://blog.csdn.net/vcvycy/article/details/78607351

版权

批量归一化(Batch Normalization, BN)在TensorFlow中的实现带来了诸多优势，包括允许使用更大学习率、消除对dropout的依赖以及初始化时的自由度。本文详细介绍了`tf.nn.batch_normalization`的使用，`tf.nn.moments`计算平均数和方差，以及BN层的放置顺序。通过在Mnist数据集上的实验对比，展示了BN层如何显著提高训练速度，加快约3倍，且与论文中BN对Inception模型的加速效果相当。" 82188570,1407999,理解FusionCharts Free：双Y轴组合图的XML解析,"['数据可视化', '图表库', 'XML解析', '前端开发']

摘要由CSDN通过智能技术生成

bn的优势：

（1）更大的学习率(传统方法太大的learning rate容易导致梯度explode/vanish，或者get stuck in poor local)
（2）不再需要dropout

（3）less careful about initialization

但是BN不仅仅加BN层，还要修改以下的东西才能更快：

（1）learning rate 赋予更大的初值，且下降得更快。(比如将learning rate从0.0015扩大5倍到0.0075，下降快6倍)

（2）Remove Droupout

（3）Reduce L2 weight decay。(比如每次除5)

（4）Remove LRN

（5、6）其他。。看论文

ResNet 有用到BN，其在CIFAR-10网络中参数为：

20,34,44,56层使用：

learning rate=0.1,在32k和48k iterations时/10。

l2 weght decay=1e-4

110层使用：0.01learning rat用于warm up training，直到training error小于80%。

一、tf.nn.batch_normalization

Tensorflow 提供了Batch Normalization的API。但是，这个API很灵活，灵活的后果就是我们需要自己去定义所有的参数。

(比如，提供给此API的Tensor，居然需要我们自己去计算mean和variance)

tf.nn.batch_normalization(
  x,                #Tensor,对它执行BN操作
  mean,             #Tensor，一般为x的平均数,float32。
  variance,         #Tensor,一般为x的方差,float32。
  offset,           #Tensor,beta值，BN的shift操作。一般初始为0
  scale,            #Tensor,gamma值，BN的scale操作。一般初始为1
  variance_epsilon, #float。小的实数防止除0出现。
  name=None
)
"""
返回值(Tensor): 
  y= (x-mean)/sqrt(variance^2+variance_epsilon)*scale+offset。
  
但是mean和variance需要自己提前计算，
而tensorflow又提供了另一个API来计算mean和variance。(当然我们也可以自己瞎搞一个)
"""

这个API完全按照论文的思路设计，且更加灵活(比如mean和variance可以设置为其他值而不是x的均值和方差，beta和gamma也是如此)。

(见下图):

二、Tensor平均数和方差计算tf.nn.moments

由于上述的API需要手动计算mean和variance，所以就用到了这个API。

tf.nn.moments(
  x,              #Tensor，要计算mean和variance的变量
  axes,           #要处理的维度。BN一般就是所有的维度。即[d for d in range(len(x.get_shape())]
  shift=None, 
  name=None, 
  keep_dims=False
)

三、例子

import tensorflow as tf
sess=tf.Session()
x=tf.constant([[1,5],[10,100]],dtype=tf.float32)
#维度
axes=[d for d in range(len(x.get_shape()))]
#beta gamma参数
beta= tf.get_variable("beta",shape=[],initializer=tf.constant_initializer(0.0))
gamma=tf.get_variable("gamma",shape=[],initializer=tf.constant_initializer(1.0))
sess.run(tf.global_variables_initializer())
#计算mean和variance，并执行BN操作
x_mean,x_variance=tf.nn.moments(x,axes)
y=tf.nn.batch_normalization(x,x_mean,x_variance,beta,gamma,1e-10,"bn")
#查看最终值
y_mean,y_variance=tf.nn.moments(y,axes)
x_val,xm_val,xv_val,y_val,ym_val,yv_val=sess.run([x,x_mean,x_variance,y,y_mean,y_variance])
print("*********执行BN前的Variable x:************")
print("x=%s\n x mean=%s\n x variance=%s" %(x_val,xm_val,xv_val))
print("*********执行BN后的Variable y:************")
print("y=%s \n y mean=%s\n y variance=%s" %(y_val,ym_val,yv_val))

执行结果为：

*********执行BN前的Variable x:************
x=[[ 1. 5.]
[ 10. 100.]]
x mean=29.0
x variance=1690.5
*********执行BN后的Variable y:************
y=[[-0.68100518 -0.58371872]
[-0.46211064 1.72683454]]
y mean=0.0
y variance=1.0

可知道x经过BN处理后得到y，y的均值为0，方差变成1了（beta为0，gamma为1时）。

这里我们可以修改下beta和gamma的初始值，则y的平均值会变成beta，方差会变成gamma^2。