数据集还是用GTSDB,我是打算用之前VOC0712数据集针对普通目标20类的模型,迁移到检测GTSDB上来。实验发现用迁移学习还是能提升一定精度的。
预训练模型:VGG_VOC0712_SSD_300x300_iter_120000.caffemodel这个是我自己训练的。
目标
数据集GTSDB
44小类目标检测并分类
数据集处理
参照caffe学习(10):交通标志目标检测训练整体流程数据集处理部分。还是原来的图片,格式已经转换,不需要再运行ppm2jpg.py。
我这边是把真值中的0-42xml中标记为1-43,背景标记作0。gt2xml.py
代码修改如下:
#!/usr/bin/env python
#-*- coding:utf-8 -*-
import sys
import os
import codecs
import cv2
reload(sys)
sys.setdefaultencoding('utf8')
root = r'/home/jqy/data/gtsdbjpg/all/xml/' # output xml path
fp = open('gt.txt') # path of gt.txt
#fp2 = open('train.txt', 'w') # path of train.txt
uavinfo = fp.readlines()
def get_label(label):
return label+1
for i in range(len(uavinfo)):
line = uavinfo[i]
line = line.strip().split(';')
line[0] = "/home/jqy/data/gtsdbjpg/all/"+str(line[0]) # need to write image path
img = cv2.imread(line[0])
print line[0]
sp = img.shape
height = sp[0]
width = sp[1]
depth = sp[2]
info1 = line[0].split('/')[-1]
info2 = info1.split('.')[0]
l_pos1 = line[1]
l_pos2 = line[2]
r_pos1 = line[3]
r_pos2 = line[4]
name = int(line[5])
lable = get_label(name)
if(os.path.exists(root + info2 + '.xml') == False):
#fp2.writelines(info2 + '\n')
with codecs.open(root + info2 + '.xml', 'w', 'utf-8') as xml:
# xml.write('<?xml version="1.0" encoding="UTF-8"?>\n')
xml.write('<annotation>\n')
xml.write('\t<folder>' + 'GTSDB' + '</folder>\n')
xml.write('\t<filename>' + info1 + '</filename>\n')
xml.write('\t<source>\n'