Tensorflow训练模型越来越慢

1 解决方案

【方案一】
载入模型结构放在全局,即tensorflow会话外层。

'''载入模型结构:最关键的一步'''
saver = tf.train.Saver()
'''建立会话'''
with tf.Session() as sess:
	for i in range(STEPS):
		'''开始训练'''
	 	_,  loss_1, acc, summary = sess.run([train_op_1, train_loss, train_acc, summary_op], feed_dict=feed_dict)
	 	'''保存模型'''
	 	saver.save(sess, save_path="./model/path", i)

【方案二】
方案一的基础上,将模型结构放在图会话的外部。

'''预测值'''
train_logits= network_model.inference(inputs, keep_prob)
'''损失值'''
train_loss = network_model.losses(train_logits)
'''优化'''
train_op = network_model.train(train_loss, learning_rate)
'''准确率'''
train_acc = network_model.evaluation(train_logits, labels)
'''模型输入'''
feed_dict = {inputs: x_batch, labels: y_batch, keep_prob: 0.5}
'''载入模型结构'''
saver = tf.train.Saver()
'''建立会话'''
with tf.Session() as sess:
	for i in range(STEPS):
		'''开始训练'''
	 	_,  loss_1, acc, summary = sess.run([train_op_1, train_loss, train_acc, summary_op], feed_dict=feed_dict)
	 	'''保存模型'''
	 	saver.save(sess, save_path="./model/path", i)	

2 时间测试

通过不同方法测试训练程序,得到不同的训练时间,每执行一次训练都重新载入图结构,会使每一步的训练时间逐次增加,如果训练步数越大,后面训练速度越来越慢,最终可导致图爆炸,而终止训练。
【时间累加】

2019-05-15 10:55:29.009205: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
step: 0, time cost: 1.8800880908966064
step: 1, time cost: 1.592250108718872
step: 2, time cost: 1.553826093673706
step: 3, time cost: 1.5687050819396973
step: 4, time cost: 1.5777575969696045
step: 5, time cost: 1.5908267498016357
step: 6, time cost: 1.5989274978637695
step: 7, time cost: 1.6078357696533203
step: 8, time cost: 1.6087186336517334
step: 9, time cost: 1.6123006343841553
step: 10, time cost: 1.6320762634277344
step: 11, time cost: 1.6317598819732666
step: 12, time cost: 1.6570467948913574
step: 13, time cost: 1.6584930419921875
step: 14, time cost: 1.6765813827514648
step: 15, time cost: 1.6751370429992676
step: 16, time cost: 1.7304580211639404
step: 17, time cost: 1.7583982944488525

【时间均衡】

2019-05-15 13:03:49.394354: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1115] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:1 with 7048 MB memory) -> physical GPU (device: 1, name: Tesla P4, pci bus id: 0000:00:0d.0, compute capability: 6.1)
step: 0, time cost: 1.9781079292297363
loss1:6.78, loss2:5.47, loss3:5.27, loss4:7.31, loss5:5.44, loss6:6.87, loss7: 6.84
Total loss: 43.98, accuracy: 0.04, steps: 0, time cost: 1.9781079292297363
step: 1, time cost: 0.09688425064086914
step: 2, time cost: 0.09693264961242676
step: 3, time cost: 0.09671926498413086
step: 4, time cost: 0.09688210487365723
step: 5, time cost: 0.09646058082580566
step: 6, time cost: 0.09669041633605957
step: 7, time cost: 0.09666872024536133
step: 8, time cost: 0.09651994705200195
step: 9, time cost: 0.09705543518066406
step: 10, time cost: 0.09690332412719727

3 原因分析

(1) Tensorflow使用图结构构建系统,图结构中有节点(node)和边(operation),每次进行计算时会向图中添加边和节点进行计算或者读取已存在的图结构;
(2) 使用图结构也是一把双刃之剑,可以加快计算和提高设计效率,但是,程序设计不合理会导向负面,使训练越来约慢;
(3) 训练越来越慢是因为运行一次sess.run,向图中添加一次节点或者重新载入一次图结构,导致图中节点和边越来越多,计算参数也成倍增长;
(4) tf.train.Saver()就是载入图结构的类,因此设计训练程序时,若每执行一次跟新就使用该类载入图结构,自然会增加参数数量,必然导致训练变慢;
(5) 因此,将载入图结构的类放在全局,即只载入一次图结构,其他时间只训练图结构中的参数,可保持原有的训练速度;

4 总结

(1) 设计训练网络,只载入一次图结构即可;
(2) tf.train.Saver()就是载入图结构的类,将该类的实例化放在全局,即会话外部,解决训练越来越慢。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
### 回答1: TensorFlow是谷歌开源的人工智能框架,它可以辅助开发者利用人工智能算法来训练模型TensorFlow训练模型过程可以分为以下几个步骤: 1. 数据准备:训练模型需要大量的数据集,开发者需要准备好相关的数据。在数据准备过程中,需要对数据进行清洗和转化,确保数据的质量和格式的合理性。 2. 设计模型:在训练模型的过程中,开发者需要根据需求和数据集选择合适的模型类型。目前,TensorFlow支持很多种模型类型和算法,开发者可以选择常用的卷积神经网络、循环神经网络、深度学习等算法。 3. 定义损失函数:损失函数为机器学习模型优化的指标,开发者需要根据模型类型和需求,选择合适的损失函数。 4. 选择优化算法:TensorFlow支持很多种优化算法,包括传统的梯度下降、动量优化、Adam优化等,这些算法可以通过传递参数来调整优化效果。 5. 训练模型:将准备好的数据按照一定的规则依次输入模型中进行训练,通过迭代优化损失函数来得到最优的模型。 6. 模型验证和调整:训练完成后,需要对模型进行验证和调整,确保其具有较高的性能和泛化能力。 总的来说,TensorFlow训练模型过程比较复杂,需要开发者结合自己的需求和实际情况来进行。不过,随着人工智能技术的不断发展和TensorFlow的不断完善,这个过程变得越来越容易,未来TensorFlow训练模型将会得到更广泛的应用。 ### 回答2: TensorFlow是一个用途广泛的开源机器学习工具箱,可用于各种深度学习应用。使用TensorFlow训练模型的步骤需要至少以下几个步骤: 1. 数据准备:TensorFlow通常需要将数据准备为可输送的形式。这通常需要对图像,文本等进行处理,如对图像进行裁剪,缩放,变形等操作。 2. 构建计算图:TensorFlow的中心思想是计算图,它提供了一个用于定义模型的抽象方式。模型通常是由神经网络组成的,使得它可以看成是一个有向图,其中节点是操作,边是数据流。TensorFlow还提供了许多便捷工具,如变量(Variables),常量(Constants)等来构建计算图。 3. 定义目标函数:训练模型的目标是最小化某个目标函数,例如均方误差。在TensorFlow中,目标函数通常定义为一个操作(operation),用于计算误差或损失值。 4. 训练模型:在TensorFlow中,训练模型通常涉及一个迭代过程,其中模型的参数通过反向传播优化方法进行更新,例如随机梯度下降。 5. 评估模型训练模型后,应对其进行评估以确定其性能如何。可以使用交叉验证等方法进行评估并调整模型参数。 熟练运用TensorFlow进行模型训练需要深入理解其概念和原理,同时需要具备一定编程能力和数学基础。可以通过参加TensorFlow官方提供的教程和示例程序,或者参加培训班等方式进行学习。 ### 回答3: TensorFlow是一个基于数据流图的开源软件库,让用户能够更容易地构建、训练和部署神经网络。在TensorFlow中,用户可以通过定义计算图、使用张量并运行会话来完成模型训练。 1. 定义计算图 在TensorFlow中,用户需要定义一个计算图来表达模型。计算图是一种由节点和边组成的有向无环图(DAG),其中每个节点表示一个操作,边表示张量(多维数组)在操作之间流动的路径。TensorFlow的核心概念是张量,用户可以用它来表示模型的输入、输出和中间状态。例如,用户可以通过以下代码创建一个计算图: ```python import tensorflow as tf # 创建两个张量 a = tf.constant(2) b = tf.constant(3) # 执行一个加法操作 c = tf.add(a, b) # 创建一个会话,运行计算图 with tf.Session() as sess: print(sess.run(c)) ``` 2. 定义模型 在计算图中定义了操作,接下来需要定义模型。用户可以使用TensorFlow提供的各种操作(例如卷积层、池化层、全连接层等)来构建模型。例如,以下代码定义了一个简单的线性回归模型: ```python import tensorflow as tf # 定义输入和输出张量 x = tf.placeholder(tf.float32) y = tf.placeholder(tf.float32) # 定义模型参数 w = tf.Variable(0.0) b = tf.Variable(0.0) # 定义模型 y_pred = w * x + b # 定义损失函数(平方误差) loss = tf.square(y_pred - y) # 定义优化器 optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01) # 最小化损失函数 train_op = optimizer.minimize(loss) ``` 3. 训练模型 有了模型和计算图,接下来是训练模型。在TensorFlow训练模型的一般流程如下: - 准备训练数据和标签 - 开始一个会话 - 初始化模型参数 - 循环训练若干轮,每轮训练时执行以下操作: - 提供训练数据和标签 - 运行训练操作 - 计算损失函数值 - 打印损失函数值和模型参数 - 关闭会话 例如,以下代码展示了如何使用梯度下降算法训练上述线性回归模型: ```python import numpy as np import tensorflow as tf # 准备数据和标签 x_train = np.array([1, 2, 3, 4]) y_train = np.array([2, 4, 6, 8]) # 开始一个会话 with tf.Session() as sess: # 初始化模型参数 sess.run(tf.global_variables_initializer()) # 循环训练若干轮 for i in range(100): # 提供训练数据和标签 feed_dict = {x: x_train, y: y_train} # 运行训练操作和损失函数计算 _, loss_val, w_val, b_val = sess.run([train_op, loss, w, b], feed_dict=feed_dict) # 打印损失函数值和模型参数 print("iter: %d, loss: %f, w: %f, b: %f" % (i, loss_val, w_val, b_val)) ``` 以上就是TensorFlow训练模型的基本流程,当然实际上要训练一个复杂的神经网络模型可能需要更多的工作量和技巧。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天然玩家

坚持才能做到极致

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值