参考
步骤
1 标记数据集
与VOC数据集不同,mxnet需要的标记数据为图片左上角及右下角,记作: xmin,ymin,xmax,ymax x m i n , y m i n , x m a x , y m a x 。将四个坐标数据以百分比表示,便于图像改变大小时保持标记框的位置正确。即记作: xmin=xmin/width,ymin=ymin/height,xmax=xmax/width,ymax=ymax/height x m i n = x m i n / w i d t h , y m i n = y m i n / h e i g h t , x m a x = x m a x / w i d t h , y m a x = y m a x / h e i g h t 。
2 生成lst文件
lst文件的格式如下:
idx 4 5 size size class xmin ymin xmax ymax class xmin ymin xmax ymax img.jpg
举例如下:
100 4 5 256 256 0 0.89751 0.092896 0.989464 0.174863 0 0.70977 0.528962 0.778736 0.601093aircraft_4.jpg
说明:
- size为训练需要的图像大小,不是原图的大小
- 第二位和第三位一般固定为4和5,原因可看参考网页的说明
- 一张图片用一行数据标记,可标记多个目标
3 生成rec和idx文件
python im2rec.py --pack-label path_of_lst path_of_pic --resize 256
说明:
- lst文件路径和图片路径需要自己替换
- 图片大小可以根据参数设定,一般高和宽大小相同