在jetson tx2上使用pascal VOC0712训练caffe-ssd

8 篇文章 0 订阅
5 篇文章 0 订阅

折腾了两天,从绝望到光明~

新机器到能训练使用,大体过程如下:

1、刷机,参考我的最新博客: https://blog.csdn.net/maum61/article/details/97612542

2、安装配置caffe,完全参考这篇博客,没问题:https://blog.csdn.net/u012614287/article/details/81537743

3、安装配置caffe-ssd,按照这篇博客,没问题:https://github.com/weiliu89/caffe/tree/ssd

以上过程会经历一些缺少库的问题,自行百度解决吧,没有安装的就安装。

记录下来的一个是,可能会缺少openblas,使用 sudo apt-get install libopenblas-dev

4、我是从tensorflow转过来的,习惯了用pycharm,就在tx2上安装了pycharm,不是太顺利,主要还是对平台不熟悉,踩坑经历出查看我的博客:https://blog.csdn.net/maum61/article/details/98218802

5、使用pycharm打开caffe-ssd,注意,需要用root运行pycharm,不然会有很多意外惊喜。。

训练依然是参考https://github.com/weiliu89/caffe/tree/ssd  ,但是在pycharm中运行某个.py文件,获得的路径就是该文件所在的目录,因此需要改一些路径,比如:

ssd_pascal.py里面的大概74行,是获取caffe_root的位置,也就是caffe_ssd的主目录,这里需要增加一句:

caffe_root = caffe_root+'/../../' 用来获取到caffe_root的位置。另外,tx2只有一个gpu,那么文件中大概330行左右,gpus="0,1,2,3"就得改成gpus="0",不过经实际测试,这里把num_gpus=0,训练依然会在gpu 0上运行,不知道什么原因。可能是我在文件前面增加了这句话的缘故吧:CUDA_VISIBLE_DEVICES=0。

另外,在生成lmdb的时候,也要使用root权限,否则可能生成数据库不成功。默认是在~/data/下面的,下载的原始数据集和生成的lmdb都在这里,当程序在生成数据集的时候,~/data这个文件夹的大小是会变化的,最直观的是看free space一直在减小,这说明数据集lmdb生成成功。最后~/data这个文件夹的大小会在5.1G左右,而不是最初解压后的2.9G(我已经把下载到的压缩文件剪切到其他存储器上了,TX2存储空间捉襟见肘啊~)如果生成的数据库有问题,训练就会提示各种出错,奇葩的一个是(core dumped)。原因之一可能是TX2的内存不足,但是在改了batch_size和accum_batch_size都=2,还是吐核。那么问题就不是内存的事儿了,那就是数据库没有成功生成,查看一下lmdb文件,才十几kB,那显然是不对的。重新生成一下。

最后完事具备,开始自己训练VGGNET了,上个图,GPU利用率还是很高的,基本上都是在95%,风扇也是呼呼转。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值