tensorflow+multiprocessing实现并行调参

最新推荐文章于 2021-11-18 19:44:11 发布

置顶

silent56_th

最新推荐文章于 2021-11-18 19:44:11 发布

阅读量8.9k

点赞数 2

分类专栏： Tensorflow Ubuntu python 调参 Tensorflow使用技巧文章标签： tensorflow gpu 深度学习神经网络 python

本文链接：https://blog.csdn.net/silent56_th/article/details/81415940

版权

本文介绍了如何使用TensorFlow和multiprocessing库实现并行调参。通过创建多个进程在独立的GPU上运行，解决了单GPU运行的限制。文章详细阐述了遇到的显存占用过多、GPU资源未充分利用等问题，以及解决方案，包括绑定GPU和避免显存泄漏。最后，分享了踩坑实录和参考资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔者需要得到使用100组超参数训练后模型的测试准确率，其中不同的超参数对应于不同的网络结构，故Graph和Session均不能共享。即笔者需要执行100次“构建Graph-新建Session-Train&Test-Close&Quit”的操作。
程序本身占用资源不多，便想要实现并行，加速调参。

需求：

输入100组超参数，返回相应超参数对应的测试准确率
每组超参数对应程序跑在单独的GPU上，不占用其他GPU资源（因为已有代码并无实现GPU间并行的部分）
无显存泄露/爆炸等问题
GPU资源被高效利用

系统环境：

服务器1：Ubuntu 16.04+CUDA8.0+tensorflow 1.0.1+python3.5.2
服务器2：Ubuntu 16.04+CUDA9.0+tensorflow 1.9.0+python3.5.2

单组超参数运行在单GPU上的实现：

已有代码中已经实现了Model类，提供了创建图-新建Session-Train&Test-Close&Quit 的全套操作，简要代码如下：

import tensorflow as tf
class Model:
    def __init__(self,param):
        self.param = param

        # create & build graph
        self.graph = tf.Graph()
        self.build_graph()

        # create session
        config = tf.ConfigProto()
        config.gpu_options.allow_growth = True
        gpu_num = random.choice(cuda_gpu_count())
        config.gpu_options.visible_device_list= str(gpu_num)
        self.sess = tf.Session(config=config,graph=self.graph)

最低0.47元/天解锁文章