关于caffe的python写的层多GPU训练

原创 2016年08月29日 19:49:12

之前训练faster的时候一直没有办法进行多GPU训练,以为是自己的错,今天看了/include/caffe/layers/python_layer.h发现原来这是caffe的缘故。
python_layer.h
原来caffe在写的时候就不允许python使用多GPU训练。

深入分析:

其是主要的是python的缘故。
这里提到一个GIL。这里的GIL是 Python 的Global Interpreter Lock (全局解释器锁) 一次只允许一个thread在python解释器中运行。

什么是全局解释器锁呢?

Python代码的执行由Python虚拟机(也叫解释器主循环)来控制。Python在设计之初就考虑到要在主循环中,同时至于一个线程在执行,就像但CPU的系统中运行多个进程那样,内存中可以存放多个程序,但在任意时刻,只有一个程序在CPU中运行。同样地,虽然Python解释器可以“运行”多个线程,但在任意时刻,只有一个线程在解释器中运行。

对Python虚拟机的访问由全局解释器锁(global interpreter lock GIL)来控制,正是这个锁能保证同一时刻只有一个线程在运行。在多线程环境中,Python虚拟机按以下方式执行。

  1. 设置GIL
  2. 切换到一个线程运行。
  3. 运行:
    a. 指定数量的字节码的指令,或者
    b. 线程主动让出控制(可以调用time.sleep(0))

  4. 把线程设置为睡眠状态。

  5. 解锁GIL。
  6. 再次重复以上所有步骤。
    在调用外部代码(如C/C++扩展函数)的时候,GIL将会被锁定,知道这个函数结束为止(由于在这期间没有Python的字节码被运行,所以不会有线程切换)。编写拓展的程序员可以主动解锁GIL。不过,Python的开发人员则不用担心在这些情况下你的Python代码会被锁住【1】。

那解决办法是什么呢?就这样认命么?NO!

高手总是有的。

方案1:https://github.com/BVLC/caffe/issues/2936
提供者:naibaf7 Berkeley Vision and Learning Center member
release the GIL for the forward/backward passes in the OpenCL branch。

方案2:https://github.com/BVLC/caffe/pull/4360
提供者:alessandroferrari
Added ScopedGILRelease for easy GIL release. Modified _caffe.cpp in pycaffe accordingly.

参考文献:
【1】Python核心编程(第二版)

版权声明:本文为博主原创文章,未经博主允许不得转载。

caffe中多GPU的使用方法

由于在ubuntu中使用caffe的程序时,都使用.sh文件,该文件中常见的命令为:./build/tools/caffe train --solver=examples/testXXX/solver...
  • jasonzzj
  • jasonzzj
  • 2016年11月26日 21:01
  • 6210

Caffe支持多GPU分布式计算

Caffe允许多GPU间并行,与AlexNet不同,多GPU模式的内涵在于“不共享数据,却共享网络”。所以,允许多个solver存在,且应用到不同的GPU上去。第一个solver会成为root_sol...
  • tianrolin
  • tianrolin
  • 2016年09月12日 17:00
  • 4339

caffe-parallel 使用总结(ONLY_CPU)

浪潮的 caffe-parallel 确实实现了数据的并行化,但是使用起来还是和原版的caffe有些出入,毕竟是从一个旧版本fork过去的。对于使用的系统环境和依赖也比原版的多一点要求。下面说说在ub...
  • wadqse123
  • wadqse123
  • 2015年05月07日 13:39
  • 7999

caffe的python API如何使用多GPU

准备跑clone下来的faster rcnn时,本打算使用多个gpu进行训练,以为--gpu 1,2,3就可以了,too naive! caffe的官方网站给出的说明就是: caffe.set...
  • daniaokuye
  • daniaokuye
  • 2018年01月05日 11:51
  • 38

caffe多GPU训练用自己的data layer被rand坑了

caffe多GPU训练,使用自己的data layer生成随机样本,rand的使用问题。
  • nus_cs
  • nus_cs
  • 2017年11月25日 17:05
  • 68

caffe作者贾杨清关于caffe解答

selected 15年6月 2  注:本文转载自:http://suanfazu.com/t/caffe/9479 一、讲...
  • dengbingfeng
  • dengbingfeng
  • 2016年05月20日 09:57
  • 3857

[Caffe]:关于caffe新手入门

Caffe的几个重要文件用了这么久Caffe都没好好写过一篇新手入门的博客,最近应实验室小师妹要求,打算写一篇简单、快熟入门的科普文。 利用Caffe进行深度神经网络训练第一步需要搞懂几个重要文件:...
  • cham3
  • cham3
  • 2017年05月15日 14:15
  • 1504

深度学习Caffe平台实例——CIFAR-10数据集在caffe平台上模型训练及实例使用模型进行预测

一、CIFAR-10数据模型训练 1.下载二进制的cifar文件   cd $CAFFE_ROOT ./data/cifar10/get_cifar10.sh     说明:该脚本会下载二进制的ci...
  • liuweizj12
  • liuweizj12
  • 2016年08月06日 20:17
  • 4495

caffe多GPU训练用自己的data layer被rand坑了

caffe多GPU训练,使用自己的data layer生成随机样本,rand的使用问题。
  • nus_cs
  • nus_cs
  • 2017年11月25日 17:05
  • 68

手把手教你用python写脚本看caffe训练好的网络测试单张图片的输出

手把手教你用python写脚本看caffe训练好的网络测试单张图片的输出  (729)  (3)  举报  收藏     因为参加比赛的缘故,要在linux下用caffe对数据集中的人脸...
  • zouyu1746430162
  • zouyu1746430162
  • 2016年11月23日 17:23
  • 652
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:关于caffe的python写的层多GPU训练
举报原因:
原因补充:

(最多只允许输入30个字)