打开./libs/datasets/pycocotools,执行make
下载COCO数据集,放到./data目录下,格式如下
./data
./coco
./annotations
./train2014
./val2014
下载链接:train2014:
http://msvocds.blob.core.windows.net/coco2014/train2014.zip
将数据转换成TFRecords
python download_and_convert_data.py
下载resnet50模型
wget
http://download.tensorflow.org/models/resnet_v1_50_2016_08_28.tar.gz
,解压到./data/pretrained_models/
执行训练:
python train/train.py
出现bug:
这是由于tensorflow0.11和0.12相对较老,需要将版本改为1.0.0
先卸载老版本tensorflow
sudo su
pip uninstall tensorflow 接着输入y
pip uninstall protobuf 接着输入y
找到合适版本的安装文件链接
TF_BINARY_URL=
https://storage.googleapis.com/tensorflow/
linux/gpu/tensorflow_gpu-1.0.0-cp27-none-linux_x86_64.whl
pip install --upgrade
$TF_BINARY_URL
继续执行训练:
python train/train.py
出现bug
原因:cudnn版本不符合,我的是5.0,官网要求的是5.1
解决方法:更新cudnn
下载cudnn5.1
选择:cuDNN v5.1 Library for Linux
$ tar xvzf cudnn-8.0-linux-x64-v5.1.tgz$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64$ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
再次执行训练:
python train/train.py
问题解决,原始配置需要迭代250000次,我们调整libs/configs/config_v1.py
调整打印日志为:log_every_n_steps,1
总结保存:save_summaries_secs,60
模型保存:sava_interval_secs,72
运行结果如下:
运行成功。