tensorflow学习（4）：损失函数+优化方法

最新推荐文章于 2024-02-24 21:08:33 发布

duanyajun987

最新推荐文章于 2024-02-24 21:08:33 发布

阅读量2.2k

点赞数

分类专栏：神经网络 TensorFlow学习

神经网络同时被 2 个专栏收录

176 篇文章 5 订阅

订阅专栏

TensorFlow学习

41 篇文章 1 订阅

订阅专栏

一、损失函数

提起损失函数，大概最常用的就是交叉熵和均方误差了。
1.交叉熵损失函数：针对分类问题
在这里插入图片描述
假设某个样例的正确答案是(1,0,0)，预测值是[0.5,0.4,0.1]
那么其交叉熵为H((1,0,0),(0.5,0.4,0.1))=-(1log0.5+0log0.4+0*log0.1)=0.3
所以，在代码实现时如下：假设label为y，预测值为y’，则交叉熵为
cross_entropy = -tf.reduce_mean(y * log(y’))
这里的乘法是对应元素相乘，reduce_mean函数时求平均值

另外，在得到预测值过程中，往往采用softmax，所以cross_entropy一般和softmax连用，有如下已经封装好的损失函数：
cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=y’)

2.均方差（MSE）：针对回归问题
在这里插入图片描述
mse = tf.reduce_mean(tf.square(y-y’))

3.除了以上两个现成的函数，我们还可以自定义函数，如分段函数：
在这里插入图片描述
大家将就着看看吧，f是分段函数，Loss是对f求和。
这里引入两个新的函数：
1）tf.greater(x,y)：比较张量x,y中每一个元素的大小，返回的比较结果和输入张量的维度相同。大于则True，反之False
2）tf.where(condition,a,b)：第一个为选择条件根据，当选择条件为True时，tf.where选择第二个参数中的值，否则选择第三个参数中的值。
因此，针对上述损失函数，我们有如下表达：
Loss = tf.reduce_sum(tf.where(tf.greater(x,y),a*(x-y),b*(y-x)))

二、优化方法

有了损失函数后，就需要采用反向传播算法来减小Loss值，使之收敛到一个最小值（如果是凸函数肯定是最小值，反之是极小值）

1.tf.train_exponential_decay
在使用反向传播算法时，学习速率learning_rate的设置非常关键，不能过大（无法收敛）也不能过小（收敛太慢），因此我们要采取一种较好的方式。而tensorflow提供了一种灵活的学习率设置方法——指数衰减法。tf.train_exponential_decay函数实现了指数衰减学习率。通过这个函数，可以先使用较大的学习率来快速得到一个比较优的解，然后随着迭代的继续逐步减小学习率，使得模型在训练后期更加稳定。该函数会指数级的减小学习率，它实现了如下代码的功能：
dacayed_learning_rate = learning_rate*decay_rate ^(global_step/decay_steps)
其中，learning_rate是初始学习率，decay_rate是衰减系数，decay_steps为衰减速度。
而且tf.train_exponential_decay可以通过设置staircase的值来设置衰减方式，默认值为True，就是上述公式；如果设置为FALSE，则global_step/decay_steps转化为整数，可以想象就是一节一节的台阶。
好了，将完了各参数含义，接下来就是使用了：
learning_rate = tf.train.exponential_decay(0.1,global_step,100,0.96,staircase=True)
初始学习率为0.1，每100轮后学习率乘以0.96（因为staircase=True）

2.正则化
为了避免过拟合问题，一个非常常用的方法就是正则化，分为L1正则化和L2正则化。一般L2正则化比较常用:
在这里插入图片描述
regularization = tf.contrib.layers.l2_regularizer(lambda)(w)
lambda是正则化项的权重，一般指定为0.5

但是，当网络结构复杂之后定义网络结构的部分和计算损失函数的部分可能不在同一个函数中，这样通过变量这种方式计算损失函数就很不方便了（比如有20层，那么要重写20次上面这个函数，复杂的同时也不易读懂）。为了解决这个问题，可以使用tensorflow提供了集合collection，它可以在一个计算图中保存一组实体（比如张量）。以下代码给出了计算5层神经网络带L2正则化的计算方法

import tensorflow as tf 
def get_weitght(shape,lambda):
	var = tf.Variable(tf.random_normal(shape),dtype = tf.float32)
	#add_to_collection函数将这个新生成边浪的L2正则化损失项加入这个集合。
	#第一个参数是集合的名字，第二个参数是要加入这个集合的内容
	tf.add_to_collection('losses',tf.contrib.layers.l2_regularizer(lambda)(var))
	return var

x = tf.placeholder(tf.float32,shape=(None,2))
y_  = tf.tf.placeholder(tf.float32,shape=(None,1))
batch_size = 8
layer_dimension = [2,10,10,10,1]
num_layers = len(layer_dimension)
cur_layer = x   #这个变量维护前向传播时最深层的节点，开始的时候是输入层
in_dimension = layer_dimension[0]
#通过循环来生成5层全连接的神经网络结构
for i in range(1,num_layers):
	out_dimension = layer_dimension[i]
	weight = get_weight([in_dimension, out_dimension], 0.001)
	bias = tf.Variable(tf.constant(0.1, shape = [out_dimension]))
	cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight) + bias)
	in_dimension = layer_dimension[i]

mse_loss = tf.reduce_mean(tf.square(y_ - cur_layer))
tf.add_to_collection('losses', mse_loss)
#tf.add_n是将一个列表的元素相加
loss = tf.add_n(tf.get_collection('losses'))

3.滑动平均模型
这个模型是作用在变量上的，可以使模型在测试数据上更加robust的方法。在采用随机梯度下降算法训练神经网络时，使用滑动平均模型在很多应用中都可以在一定程度提高最终模型在测试数据上的表现。
在tensorflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时，需要提供一个衰减率decay，这个衰减率将用于控制模型更新的速度。ExponentialMovingAverage对每一个变量会维护一个影子变量（shadow variable），这个影子变量的初始值就是相应变量的初始值，而每次运行变量更新时，影子变量的值会更新为：
shadow_variable = decay*shadow_variable+(1-decay)*variable
为了使得模型在训练前期可以更新的更快，ExponentialMovingAverage还提供了num_updates参数来动态设置decay大小，如果在ExponentialMovingAverage初始化时提供了num_updates参数，那么每次使用的衰减率将是：
min{decay, (1+num_updates)/(10+num_updates)}
下面展示如何使用滑动平均模型（注：使用滑动平均模型的参数都必须是float类型的）

v1 = tf.Variable(0,dtype = tf.float32)
#这里的step就是全局训练的轮数，和上述num_updates意义相同
#定义一个滑动平均的类ema
ema = tf.train.ExponentialMovingAverage(0.99, step)
#定义一个更新变量滑动平均的操作，这里需要给定一个列表，每次
#执行这个操作时，列表中的变量都会被更新
maintian_averages_op = ema.apply([v1])

使用起来是不是很简单，哈哈哈

duanyajun987

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
tensorflow学习（4）：损失函数+优化方法

一、损失函数提起损失函数，大概最常用的就是交叉熵和均方误差了。1.交叉熵损失函数：针对分类问题假设某个样例的正确答案是(1,0,0)，预测值是[0.5,0.4,0.1]那么其交叉熵为H((1,0,0),(0.5,0.4,0.1))=-(1log0.5+0log0.4+0*log0.1)=0.3所以，在代码实现时如下：假设label为y，预测值为y’，则交叉熵为cross_ent...
复制链接

扫一扫