首先参照博客http://www.cnblogs.com/denny402/p/5083300.html和http://blog.csdn.net/u012029332/article/details/51258617,使用博主的数据训练,前面都很顺利,到最后运行时报内存错误,可能的解决方案为:减小batch_size或者增大内存。接下来使用自己的数据训练caffe网络,步骤一一记录下来。
使用第二个博客的步骤训练,时间大概为半个小时,结果为:loss = 0.33919, accuracy = 0.93
okay,现在开始训练自己的网络。
数据集为网上找的数据,共三类人脸、指纹和虹膜,每类500张,共1500张。其中1200张作为训练集,300张作为测试集。
第一步:首先生成图像的列表文件
我的三类文件分别在三个文件夹中,每一个文件夹下面还有子文件夹,采用脚本文件生成文件列表,注意標籤從0開始,create_filelist.sh如下:
#!/usr/bin/env sh
DATA=data/song/
MY=examples/myfile2
echo "Create train.txt..."
rm -rf $MY/train.txt
find $DATA/CASIA_Lamp_500 -name *.jpg | sed "s/$/ 0/">>$MY/train.txt
find $DATA/FVC2004_fingerprints_500 -name *.tif | sed "s/$/ 1/">>$MY/train.txt
find $DATA/FVC2004_fingerprints_500 -name *.bmp | sed "s/$/ 1/">>$MY/train.txt
find $DATA/ORL_Yale_faces_500 -name *.bmp | sed "s/$/ 2/">>$MY/train.txt
echo "All done"
然后手动分出测试数据集。分出測試數據集時也要注意一點,均勻分出,打亂數據然後分出測試數據。
第二步:转换数据爲lmdb
lmdb是caffe中網絡輸入需要的一種較爲高效的數據類型。转换数据格式的脚本文件create_lmdb.sh如下,采用caffe自帶的convert_imagenet进行转换,打亂目錄的順序, 重新resize圖像爲32×32,輸入設置爲單通道灰度圖,并且生成均值文件
#!/usr/bin/env sh
MY=examples/myfile2
echo "Create train lmdb.."
rm -rf $MY/img_train_lmdb
build/tools/convert_imageset \
--shuffle \
--resize_height=32 \
--resize_width=32 \
--gray \
/home/xxx/caffe/ \
$MY/train.txt \
$MY/img_train_lmdb
echo "Create test lmdb.."
rm -rf $MY/img_test_lmdb
build/tools/convert_imageset \
--shuffle \
--resize_width=32 \
--resize_height=32 \
--gray \
/home/xxx/caffe/a \
$MY/test.txt \
$MY/img_test_lmdb
echo "Create mean.."
build/tools/compute_image_mean examples/myfile2/img_train_lmdb examples/myfile2/mean.binaryproto
echo "All Done.."
在myfile2文件中,生成了兩個文件夾和一個文件,img_test_lmdb、img_train_lmdb和mean.binaryproto. 輸入數據減去均值文件,可以加快訓練速度。
第三步:修改solver.prototxt和train_test.prototxt
使用cifar10-quick的网络结构,筆記本配置有點低~,修改batch_size = 50, cifar10_quick_sover.prototxt如下, 測試集爲300,修改test_iter 改为6,与batch_size共同完成一个epoc
net: "examples/myfile2/cifar10_quick_train_test.prototxt"
test_iter: 6
test_interval: 50
base_lr: 0.001
momentum: 0.9
weight_decay: 0.004
lr_policy: "fixed"
display: 10
max_iter: 300
snapshot: 4000
snapshot_prefix: "examples/myfile2/cifar10_quick"
# solver mode: CPU or GPU
solver_mode: CPU
第四步:运行训练命令
sudo time build/tools/caffe train -solver examples/myfile2/cifar10_quick_solver.prototxt
time可以計時,通過cifar10_quick_solver.prototxt協調整個訓練過程。然后是漫长的等待~~~~~還好21分钟训练完成,迭代300次,accuracy为1。
然後尝试将图像尺寸變大,改为64×64,训练,出现accuracy一直不变而且loss=nan,解决方法:
(1)调小学习率,base_lr=0.0001
(2)将学习率调整策略改为 lr_policy:step
(3)输入数据归一化
(4)原因:梯度变得非常大,使得学习过程难以继续
(5)图片文件有损坏
最后设置base_lr=0.001,fixed模式,网络只留一层卷积一层池化,27分钟训练成功,accuracy=1
结束