Tensorflow学习(5)-神经网络进一步优化(学习率、过拟合问题)

学习率的设置

 tf.train.exponential_decay()函数会指数级的减小学习率,使得模型在训练后期更加稳定。

它实现了以下代码的功能

decayed_learning_rate = learning_rate * decay_rate**(global_step_/decay_steps)

该函数的使用 

global_steps = tf.Variable(0)
# 通过exponential_decay来生成学习率
# 将staircase设置为True这使得学习率成为一个阶梯函数。具体见86页
learning_rate = tf.train.exponential_decay(0.1, global_steps, 100, 0.96, staircase=True)

# 在minimize函数中写入global_step = global_steps,完成global_steps每次训练都加一
# 比较奇怪的是global_step = global_steps似乎是左边给右边赋了值,但查了查发现实际上
# 这里是将global_steps的地址赋值给了global_step(好像是因为python函数参数赋值是引用的方式)
# 训练神经网络时,左边global_step会自动加一,他的地址就是global_steps的地址
# 于是global_steps完成加一。
learning_step = tf.train.GradientDescentOptimizer(learning_rate) \
    .minimize(my_loss, global_step=global_steps)

以上代码完成了初始学习率为0.1,每训练100轮后学习率乘以0.96。

过拟合问题

为了避免过拟合问题,一个非常常用的方法是正则化

就是在损失函数中加入刻画模型复杂程度的指标,在优化时不是直接优化J(\Theta)而是优化J(\Theta)+nR(w),其中\Theta代表神经网络中所有参数,而w值代表权重,n代表模型复杂损失在损失函数中的比例。常用的有两种,L1是对权重的绝对值加和,L2是对权重的平方加和。

无论哪种,基本思想都是希望限制权重的大小,使得模型不能任意拟合训练数据中的随机噪音。

简单的带L2正则化的损失函数定义 


w = tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1))
y = tf.matmul(x, w)

loss = tf.reduce_mean(tf.square(y_ - y) + tf.contrib.layers.l2_regularizer(lambda )(w))

tf.contrib.layers.l2_regularizer(n),可以返回一个函数,这个函数可以计算一个给定参数(n)的L2正则化的值,以下代码给出使用这两个函数的样例。

weights = tf.constant([[1.0, 2.0],[-3.0, 4.0]])
with tf.Session() as sess:
    print(sess.run(tf.contrib.layers.l1_regularizer(.5 )(weights)))
# (|1|+|2|+|-3|+|4|)*0.5=5,输出为5


weights = tf.constant([[1.0, 2.0],[-3.0, 4.0]])
with tf.Session() as sess:
    print(sess.run(tf.contrib.layers.l2_regularizer(.5 )(weights)))
# 输出为7.5

在简单的神经网络中,这样的方式就可以很好的计算带正则化的损失函数了。但当神经网络的层数增多时,这样的方式可能导致损失函数的定义很长。更主要的是,当网络结构复杂后,定义网络结构的部分和计算损失函数的部分可能不在同一个函数内。

为了解决这个问题,可以使用TensorFlow中提供的集合(collection),它可以在一个计算图中保存一组实体。以下代码给出了通过集合计算一个5层神经网络带L2正则化的损失函数的计算方法。也顺便学习多层网络的构建方法

import tensorflow as tf
# 获取一层神经网络边上的权重,并将这个L2正则化损失加入名称为‘losses’的集合中
def get_weight(shape, Lambda):
    # 生成一个变量,也就是生成的一层权重
    var = tf.Variable(tf.random_normal(shape=shape), dtype=tf.float32)
    # add_to_collection函数将新生成变量的L2正则化损失项加入集合
    # 这个函数的第一个参数‘losses’是集合的名字,第二个参数是要加入集合内容。
    tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(Lambda)(var))
    return var


x = tf.placeholder(tf.float32, shape=(None, 2))
y_ = tf.placeholder(tf.float32, shape=(None, 1))
batch_size = 8

# 定义每一层网络中节点的个数   //dimension有维,规格的意思
layer_dimension = [2, 10, 10, 10, 1]
# 神经网络的层数
n_layers = len(layer_dimension)

# 这个变量维护前向传播最深处的节点,开始的时候就是输入层
cur_layer = x
# 这个变量维护当前层数节点的个数
# in_dimension和out_dimension都是为了确定创建的网络结构的维度,应该是[in_dimension,out_dimension]
in_dimension = layer_dimension[0]

# 通过一个循环生成5层全连接的神经网络结构,同时进行前向传播
for i in range(1, n_layers):
    # 输出维度为这个循环的维度
    out_dimension = layer_dimension[i]
    # 产生一层网络结构,并把这个变量的L2正则化损失加入到计算图中的集合
    weight = get_weight([in_dimension, out_dimension], 0.001)
    # 偏置项,维度应该是下一层的水平维度
    bias = tf.Variable(tf.constant(0.1, shape=[out_dimension]))
    # 使用relu激活函数
    cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight) + bias)
    # 在进入下次循环之前更新in_dimension
    in_dimension = out_dimension

# 在定义神经网络前向传播的同时已经将所有层的L2正则化损失加入了图上的集合
# 只需要计算模型在训练数据上表现的损失函数
mse_loss = tf.reduce_mean(tf.square(y_, cur_layer))

# 将均方误差损失函数加入损失集合
tf.add_to_collection('losses', mse_loss)

# tf.get_collection返回一个列表,列表是所有这个集合中的元素。
# 此样例中,这些元素就是L2正则化的损失,还有均方误差损失。
# 将他们加起来可以得到最终的损失函数
loss = tf.add_n(tf.get_collection('losses'))

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值