TensorFlow - 优化器函数Optimizer


因为大多数机器学习任务就是最小化损失,在损失定义的情况下,后面的工作就交给了优化器。因为深度学习常见的是对于梯度的优化,也就是说,优化器最后其实就是各种对于梯度下降算法的优化。

常用的optimizer类
  • Optimizer
  • GradientDescentOptimizer
  • AdagradOptimizer
  • AdagradDAOptimizer
  • MomentumOptimizer
  • AdamOptimizer
  • FtrlOptimizer
  • RMSPropOptimizer
1. class tf.train.Optimizer

优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。你基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer.等等这些。

操作描述
class tf.train.Optimizer基本的优化类,该类不常常被直接调用,而较多使用其子类,比如GradientDescentOptimizer, AdagradOptimizer或者MomentumOptimizer
tf.train.Optimizer.init(use_locking, name)创建一个新的优化器,该优化器必须被其子类(subclasses)的构造函数调用
tf.train.Optimizer.minimize(loss, global_step=None, var_list=None, gate_gradients=1, aggregation_method=None, colocate_gradients_with_ops=False, name=None, grad_loss=None)添加操作节点,用于最小化loss,并更新var_list该函数是简单的合并了compute_gradients()与apply_gradients()函数返回为一个优化更新后的var_list,如果global_step非None,该操作还会为global_step做自增操作
tf.train.Optimizer.apply_gradients(grads_and_vars, global_step=None, name=None)将计算出的梯度应用到变量上,是函数minimize()的第二部分,返回一个应用指定的梯度的操作Operation,对global_step做自增操作
tf.train.Optimizer.compute_gradients(loss,var_list=None, gate_gradients=1, aggregation_method=None, colocate_gradients_with_ops=False, grad_loss=None)对var_list中的变量计算loss的梯度该函数为函数minimize()的第一部分,返回一个以元组(gradient, variable)组成的列表

即:

minimize() 函数处理了梯度计算和参数更新两个操作
compute_gradients() 函数用于获取梯度
apply_gradients() 用于更新参数

其中的minimize可以拆为以下两个步骤:
① 梯度计算
② 将计算出来的梯度应用到变量的更新中
拆开的好处是,可以对计算的梯度进行限制,防止梯度消失和爆炸

class tf.train.Optimizer 用法
# Create an optimizer with the desired parameters.
opt = GradientDescentOptimizer(learning_rate=0.1)
# Add Ops to the graph to minimize a cost by updating a list of variables.
# "cost" is a Tensor, and the list of variables contains tf.Variable objects.
opt_op = opt.minimize(cost, var_list=<list of variables>)
# Execute opt_op to do one step of training:
opt_op.run()

或者

# 梯度下降
import tensorflow as tf

x = tf.Variable(5, name='x', dtype=tf.float32)
log_x = tf.log(x)
log_x_squared = tf.square(log_x)

optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.5)
train_op = optimizer.minimize(log_x_squared)

init = tf.initialize_all_variables()

def optimize():
    with tf.Session() as session:
        session.run(init)
        # print(session.run(log_x_squared))
        print("starting at", "x:", session.run(x), "log(x)^2:", session.run(log_x_squared))
        for step in range(100):  # 迭代100次
            session.run(train_op)
            print("step", step, "x:", session.run(x), "log(x)^2:", session.run(log_x_squared))

optimize()
注意事项:在使用它们之前处理梯度

使用minimize()操作,该操作不仅可以计算出梯度,而且还可以将梯度作用在变量上。如果想在使用它们之前处理梯度,可以按照以下三步骤使用optimizer :

1、使用函数compute_gradients()计算梯度
2、按照自己的愿望处理梯度
3、使用函数apply_gradients()应用处理过后的梯度

例如:

# 创建一个optimizer.
opt = GradientDescentOptimizer(learning_rate=0.1)

# 计算<list of variables>相关的梯度
grads_and_vars = opt.compute_gradients(loss, <list of variables>)

# grads_and_vars为tuples (gradient, variable)组成的列表。
#对梯度进行想要的处理,比如cap处理
capped_grads_and_vars = [(MyCapper(gv[0]), gv[1]) for gv in grads_and_vars]

# 令optimizer运用capped的梯度(gradients)
opt.apply_gradients(capped_grads_and_vars)

实际例子

# 方法1:拆开为两部分
import tensorflow as tf
tf.reset_default_graph()

# 创建变量
with tf.variable_scope('var'):
    weights=tf.get_variable(name='w',initializer=tf.constant(2.0))
    input=tf.get_variable(name='x',initializer=tf.constant(3.0))
    loss=weights*input*input  #定义优化器,计算梯度和应用梯度
    print(loss)  # Tensor("var/mul_1:0", shape=(), dtype=float32)
    print('weight_name:', weights.name)  # weight_name: var/w:0
    print('input_name:', input.name)  # input_name: var/x:0


optimizer=tf.train.GradientDescentOptimizer(learning_rate=0.4)
# 返回list格式为:[(grad1,var_initial1),(grad2,var_initial2)]
list_of_grad_var1 = optimizer.compute_gradients(loss,[weights,input])  
# print('-->', list_of_grad_var1)
# 这里不能不加copy(),不加则list_of_grad_var1会跟着list_of_grad_var2变化,最终两个是一模一样的
list_of_grad_var2=list_of_grad_var1.copy()  
# 也可以用下面这个计算梯度,只是不会返回var_initial
# grad=tf.gradients(loss,[weights,input])

# 剪切梯度,防止梯度消失和爆炸
for i,(grad,var_initial) in enumerate(list_of_grad_var1):
    # 这里比较的是2范数,具体公式自己查
    list_of_grad_var2[i] = (tf.clip_by_norm(grad,10),var_initial)  # 梯度裁剪

# 更新变量
train_op = optimizer.apply_gradients(list_of_grad_var2)  #一定要记住,这里是x和w都要被更新的!!!

# 执行
config=tf.ConfigProto()
config.gpu_options.allow_growth = True
with tf.Session(config=config) as sess:
    sess.run(tf.global_variables_initializer())
    print(sess.run(list_of_grad_var1))  # 原始的梯度(9,12)
    print(sess.run(list_of_grad_var2))  # 剪切后的梯度(9,10)
    sess.run(train_op)  #更新loss
    print(sess.run(loss))  #降低的loss:从原来的18降低为了 -1.6

# #输出
# Tensor("var/mul_1:0", shape=(), dtype=float32)
# weight_name: var/w:0
# input_name: var/x:0
# [(9.0, 2.0), (12.0, 3.0)]
# [(9.0, 2.0), (10.0, 3.0)]
# -1.6
Reference
### 回答1: 使用 TensorFlow-GPU 进行深度学习任务需要以下步骤: 1. 安装CUDA和cuDNN:CUDA是 NVIDIA 的并行计算平台,cuDNN是一个加速深度学习的库,需要在安装CUDA之前先安装。 2. 安装GPU版本的TensorFlow:在安装完CUDA和cuDNN之后,需要安装对应版本的 TensorFlow-GPU,可以通过 pip 包管理器安装。 3. 编写并运行深度学习代码:使用 TensorFlow-GPU 编写深度学习代码,然后运行代码。 以下是一个简单的 TensorFlow-GPU 示例: ```python import tensorflow as tf # 创建两个张量并进行加法运算 with tf.device('/GPU:0'): a = tf.constant([1.0, 2.0, 3.0, 4.0], shape=[2, 2], name='a') b = tf.constant([4.0, 3.0, 2.0, 1.0], shape=[2, 2], name='b') c = tf.matmul(a, b) # 创建会话并运行计算图 with tf.Session() as sess: print(sess.run(c)) ``` 以上示例创建了两个张量并进行加法运算,使用 `with tf.device('/GPU:0')` 指定了使用 GPU 进行计算。最后创建会话并运行计算图。 需要注意的是,使用 TensorFlow-GPU 进行深度学习任务需要一定的硬件要求,需要具备 NVIDIA 的显卡和相应的驱动。 ### 回答2: 使用tensorflow-gpu进行深度学习任务需要按照以下步骤进行操作: 首先,安装CUDA和cuDNN。因为tensorflow-gpu利用CUDA和cuDNN来进行高效的GPU计算,所以需要先安装这两个工具。具体安装步骤可以参考官方文档。 接着,安装tensorflow-gpu。可以通过pip命令安装最新版本的tensorflow-gpu,例如:pip install tensorflow-gpu。安装完后,可以通过import tensorflow来验证是否安装成功。 然后,创建并配置TensorFlow的计算图。计算图是tensorflow中进行计算的基本单位,可以通过tf.Graph()创建一个新的计算图,并使用tf.ConfigProto()来设置运行的配置,例如使用哪个GPU设备。例如,可以使用with tf.device('/GPU:0')来表示使用第一个GPU设备。然后,使用tf.Session()来创建一个会话,并通过sess.run()来执行计算图。 接下来,定义模型的结构和各层的操作。tensorflow提供了丰富的API来定义各种深度学习模型,可以根据具体任务选择适合的API。例如,可以使用tf.layers中的API来定义卷积层、全连接层等。同时,还需要定义损失函数优化器来进行模型的训练。 接着,加载数据并进行预处理。通过tensorflow提供的API,可以方便地加载各种格式的数据,并进行预处理,例如归一化、数据增强等。可以使用tf.data.Dataset来处理大规模数据,或者使用tf.train.shuffle_batch来进行小批量的数据处理。 最后,通过迭代训练模型,并评估模型的性能。可以使用tf.train模块中的API来定义训练过程和迭代次数。在每一次迭代中,使用sess.run()来执行计算图,并更新模型的参数。训练完成后,可以通过计算模型在验证集或测试集上的准确率等指标来评估模型的性能。 总结起来,使用tensorflow-gpu进行深度学习任务的具体步骤包括安装CUDA和cuDNN、安装tensorflow-gpu、创建计算图并配置运行环境、定义模型的结构和层操作、加载数据并进行预处理、迭代训练模型并评估性能。 ### 回答3: 使用tensorflow-gpu进行深度学习任务需要以下步骤: 1. 安装CUDA和cuDNN:tensorflow-gpu依赖于CUDA和cuDNN,需要先安装相应版本的CUDA和cuDNN,并配置环境变量。 2. 安装tensorflow-gpu:可以通过pip工具安装tensorflow-gpu,命令为:`pip install tensorflow-gpu`。 3. 导入tensorflow库:在Python代码中,使用`import tensorflow as tf`导入tensorflow库。 4. 创建计算图:使用tensorflow的API创建计算图,包括定义输入数据、模型结构、损失函数和优化算法。 5. 创建会话:使用`tf.Session()`创建一个tensorflow会话。 6. 运行计算图:使用会话的`run()`方法运行计算图,可以通过`feed_dict`参数传入训练数据,并用`fetch`参数获取输出结果。 7. 训练模型:在会话中,使用训练数据不断迭代优化模型参数,可以使用`tf.train.Optimizer`类定义优化算法,并使用`minimize()`方法来执行优化步骤。 8. 保存和加载模型:可以使用`tf.train.Saver()`类保存和加载模型,使用`save()`方法保存模型参数,使用`restore()`方法加载模型参数。 9. 预测和评估:使用训练好的模型对新数据进行预测,并进行评估。 总结来说,使用tensorflow-gpu进行深度学习任务主要包括安装依赖,导入库,创建计算图,创建会话,运行计算图,训练模型,保存和加载模型,预测和评估。使用tensorflow-gpu能够利用GPU的并行计算能力,加速深度学习任务的训练过程。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值