tensorflow2.0训练网络的问题（包括BatchNormalization以及Dropout）

最新推荐文章于 2024-04-23 21:25:26 发布

太阳花的小绿豆

最新推荐文章于 2024-04-23 21:25:26 发布

阅读量3.2k

点赞数 6

分类专栏： Tensorflow 深度学习文章标签： Tensorflow2.0 BatchNormalization Dropout fit_generator subclassed

本文链接：https://blog.csdn.net/qq_37541097/article/details/103424447

版权

深度学习同时被 2 个专栏收录

53 篇文章 1582 订阅

订阅专栏

Tensorflow

25 篇文章 58 订阅

订阅专栏

近期准备做一些关于深度学习图像篇的教程，主要包括分类网络，目标检测网络、图像分割网络，并以pytorch1.3以及tensorflow2.0分别去搭建实现。近期使用tensorflow2.0训练网络时遇到了很多问题，在这简单做个总结。

使用环境：Python3.6（Anaconda管理）、Tensorflow2.0.0rc1

1.到底使用subclassed API还是使用官方推荐的keras functional API

具体使用哪种方法，主要还是看使用者的习惯，看你喜欢使用像pytorch那样的subclassed搭建模型方式，还是喜欢使用tensorflow原来的搭建模型方式，不过根据官方教程来看，官方还是更推荐使用keras functional API的方式。如果你使用subclassed模式，这里有个坑，实例化后需要手动build一下，否则无法使用summary函数查看网络结构，最坑的是使用迁移学习时如果不提前手动build是无法载入预训练权重的，并且程序也不会报错，小心踩坑。个人建议还是使用keras functional API，坑要少点。

subclassed搭建模型方式（搭建alexNet为例）：

from tensorflow.keras import layers, models, Model, Sequential
class AlexNet(Model):
    def __init__(self, class_num=1000):
        super(AlexNet, self).__init__()
        self.features = Sequential([                                                # input(None, 224, 224, 3)
            layers.ZeroPadding2D(((1, 2), (1, 2))),                                 # output(None, 227, 227, 3)
            layers.Conv2D(48, kernel_size=11, strides=4, activation="relu"),        # output(None, 55, 55, 48)
            layers.MaxPool2D(pool_size=3, strides=2),                               # output(None, 27, 27, 48)
            layers.Conv2D(128, kernel_size=5, padding="same", activation="relu"),   # output(None, 27, 27, 128)
            layers.MaxPool2D(pool_size=3, strides=2),                               # output(None, 13, 13, 128)
            layers.Conv2D(192, kernel_size=3, padding="same", activation="relu"),   # output(None, 13, 13, 192)
            layers.Conv2D(192, kernel_size=3, padding="same", activation="relu"),   # output(None, 13, 13, 192)
            layers.Conv2D(128, kernel_size=3, padding="same", activation="relu"),   # output(None, 13, 13, 128)
            layers.MaxPool2D(pool_size=3, strides=2)])                              # output(None, 6, 6, 128)

        self.flatten = layers.Flatten()
        self.classifier = Sequential([
            layers.Dropout(0.2),
            layers.Dense(2048, activation="relu"),                                  # output(None, 2048)
            layers.Dropout(0.2),
            layers.Dense(2048, activation="relu"),                                   # output(None, 2048)
            layers.Dense(class_num),                                                # output(None, 5)
            layers.Softmax()
        ])

    def call(self, inputs):
        x = self.features(inputs)
        x = self.flatten(x)
        x = self.classifier(x)
        return x

keras functional API搭建模型方式（搭建alexNet为例）：

from tensorflow.keras import layers, models, Model, Sequential
def AlexNet(im_height=224, im_width=224, class_num=1000):
    # tensorflow中的tensor通道排序是NHWC                                          
    input_image = layers.Input(shape=(im_height, im_width, 3), dtype="float32")  # output(None, 224, 224, 3)
    x = layers.ZeroPadding2D(((1, 2), (1, 2)))(input_image)                      # output(None, 227, 227, 3)
    x = layers.Conv2D(48, kernel_size=11, strides=4, activation="relu")(x)       # output(None, 55, 55, 48)
    x = layers.MaxPool2D(pool_size=3, strides=2)(x)                              # output(None, 27, 27, 48)
    x = layers.Conv2D(128, kernel_size=5, padding="same", activation="relu")(x)  # output(None, 27, 27, 128)
    x = layers.MaxPool2D(pool_size=3, strides=2)(x)                              # output(None, 13, 13, 128)
    x = layers.Conv2D(192, kernel_size=3, padding="same", activation="relu")(x)  # output(None, 13, 13, 192)
    x = layers.Conv2D(192, kernel_size=3, padding="same", activation="relu")(x)  # output(None, 13, 13, 192)
    x = layers.Conv2D(128, kernel_size=3, padding="same", activation="relu")(x)  # output(None, 13, 13, 128)
    x = layers.MaxPool2D(pool_size=3, strides=2)(x)                              # output(None, 6, 6, 128)

    x = layers.Flatten()(x)                         # output(None, 6*6*128)
    x = layers.Dropout(0.2)(x)
    x = layers.Dense(2048, activation="relu")(x)    # output(None, 2048)
    x = layers.Dropout(0.2)(x)
    x = layers.Dense(2048, activation="relu")(x)    # output(None, 2048)
    x = layers.Dense(class_num)(x)                  # output(None, 5)
    predict = layers.Softmax()(x)

    model = models.Model(inputs=input_image, outputs=predict)
    return model

2.训练过程中使用tf.keras中的fit_generator方法还是使用低层api方法去训练

首先说下，在官方提供的一些教程中，很多例子都是使用fit方法训练，其实在真正应用中一般很少用fit方法而是使用fit_generator的方法，因为fit方法是一次性将所有样本载入内存，而fit_generator方法是分批载入内存的。在训练自己的图像样本时一般不可能一次性载入内存（内存不够），所以fit_generator的方法更常用。

使用tf.keras中的fit系列方法的好处就是训练更简单，对很底层的东西你都不需要去管，但缺点在于封装程度太高可控性差。

使用低层api的方法好处在于用户能够精确去控制训练的流程，缺点在于代码量多一点，而且需要你注意BN,Dropout层的状态（这些层在train模式以及validation模式下设置是不同的，这里坑比较多，使用fit系列方法可以不用去管）

除了以上差异外还发现使用低层的api在使用迁移学习的过程中速度明显更快，速度大概是fit系列方法的2倍以上（在CPU上跑是这样，GPU上还没测试，没有查看源码暂不知道原因），我个人推荐使用低层api的方法，能够自主控制训练过程，fit方法有些诡异。

常用fit_generator的形式如下(部分代码)：

model = MyNet(im_height=im_height, im_width=im_width, class_num=5)
model.summary()

# using keras high level api for training
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False),
              metrics=["accuracy"])

callbacks = [tf.keras.callbacks.ModelCheckpoint(
    filepath='./save_weights/myNet_{epoch}.h5',
    save_best_only=True,
    save_weights_only=True,
    monitor='val_loss')]

model.fit_generator(generator=train_data_gen,
                    steps_per_epoch=total_train // batch_size,
                    epochs=epochs,
                    validation_data=val_data_gen,
                    validation_steps=total_val // batch_size,
                    callbacks=callbacks)

其中train_data_gen和val_data_gen是生成器，用于预处理并生成训练、测试样本。可以看出使用fit系列方法很简单，但你无法精准控制训练的每个batch。

使用低层api的训练方法如下（部分代码）：

# using keras low level api for training
loss_object = tf.keras.losses.CategoricalCrossentropy(from_logits=False)
optimizer = tf.keras.optimizers.Adam(learning_rate=0.0001)

train_loss = tf.keras.metrics.Mean(name='train_loss')
train_accuracy = tf.keras.metrics.CategoricalAccuracy(name='train_accuracy')

test_loss = tf.keras.metrics.Mean(name='test_loss')
test_accuracy = tf.keras.metrics.CategoricalAccuracy(name='test_accuracy')


@tf.function
def train_step(images, labels):
    with tf.GradientTape() as tape:
        output = model(images, training=True)
        loss = loss_object(labels, output)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

    train_loss(loss)
    train_accuracy(labels, output)


@tf.function
def test_step(images, labels):
    output = model(images, training=False)
    t_loss = loss_object(labels, output)

    test_loss(t_loss)
    test_accuracy(labels, output)


best_test_loss = float('inf')
for epoch in range(1, epochs+1):
    train_loss.reset_states()        # clear history info
    train_accuracy.reset_states()    # clear history info
    test_loss.reset_states()         # clear history info
    test_accuracy.reset_states()     # clear history info

    # train
    for step in range(total_train // batch_size):
        images, labels = next(train_data_gen)
        train_step(images, labels)

    # validate
    for step in range(total_val // batch_size):
        test_images, test_labels = next(val_data_gen)
        test_step(test_images, test_labels)

    template = 'Epoch {}, Loss: {}, Accuracy: {}, Test Loss: {}, Test Accuracy: {}'
    print(template.format(epoch,
                          train_loss.result(),
                          train_accuracy.result() * 100,
                          test_loss.result(),
                          test_accuracy.result() * 100))
    if test_loss.result() < best_test_loss:
        best_test_loss = test_loss.result()
        model.save_weights("./save_weights/myNet_{}.ckpt".format(epoch), save_format='tf')

从代码量上明显能够看到多了很多，但是能够精准控制训练流程。注意在每个epoch的开始都会对统计的loss以及accurate进行reset_status操作，如果不进行重置操作（即清除历史记录）会导致loss和accurate记录的不准即loss会偏大，accurate会偏低，这里要吐槽一下官方的例子，在官方的例子中并没有在每个epoch开始时清除历史记录，这会误导学习者。关于BN和Dropout的坑在下个问题中会讲到。

3.训练过程中BatchNormalization以及Dropout该如何处理

大家都知道Dropout和BN是解决过拟合非常常用的方法，特别是BN使用非常普遍，但如果使用不当很容易踩坑，特别是BatchNormalization（让人又爱又恨）。为什么dropout与bn层这么特殊，简单讲下原理。

dropout层常用在最后的全连接层之间，在正向传播过程中会随机以一定概率将部分节点的值置零，这样能减轻过拟合的情况。

BN层常被用在conv卷积层与relu激活层之间，用来调整正向传播过程中卷积后特征层值的分布，可防止梯度消失或爆炸以减轻过拟合的情况。

bn相比dropout更加特殊，因为bn中有四个学习参数，分别是moving_mean、moving_variance、gamma、bate（注意其中有些参数是在正向传播过程中学习更新的，坑就在于此）。

在训练过程的正向传播过程中我们希望（1）dropout随机置零节点（2）bn调节值的分布并根据样本训练自身参数

在测试推理的过程中（只存在正向传播）我们希望（1）dropout不对节点做任何操作（2）bn调节值的分布，不去学习更新自身参数

如果使用fit系列操作，我们不用去管以上说的各种问题，fit操作会自动帮我们处理，但如果使用低层的API，我们需要在train模式以及validation模式下分别传入不同的参数trainning来控制dropout以及BN的状态。其实也很简单，在train模式下传入training=True参数，在validation模式下传入training=False参数即可（model.trainable参数无法控制bn层状态）：

@tf.function
def train_step(images, labels):
    with tf.GradientTape() as tape:
        output = model(images, training=True)
        loss = loss_object(labels, output)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

    train_loss(loss)
    train_accuracy(labels, output)


@tf.function
def test_step(images, labels):
    output = model(images, training=False)
    t_loss = loss_object(labels, output)

    test_loss(t_loss)
    test_accuracy(labels, output)

太阳花的小绿豆

关注

6
点赞
踩
26

收藏

觉得还不错? 一键收藏
打赏
14
评论
tensorflow2.0训练网络的问题（包括BatchNormalization以及Dropout）

近期准备做一些关于深度学习图像篇的教程，主要包括分类网络，目标检测网络、图像分割网络，并以pytorch1.3以及tensorflow2.0分别去搭建实现。近期使用tensorflow2.0训练网络时遇到了很多问题，在这简单做个总结。使用环境：Python3.6（Anaconda管理）、Tensorflow2.0.0rc11.到底使用subclassed API还是使用官方推荐的ke...
复制链接

扫一扫