最近在做训练的时候遇到了做训练集的问题,所以总结一下自己做数据集的思路与操作。ubuntu16.04.
一、VOC数据集格式:做检测的时候会遇到,每一个图中可能有几个目标,每个目标都有一个位置信息保存到xml文件中,如果想将此类数据做成lmdb格式,首先就是要标记图像,得到每一个图中目标的位置信息,标记的程序可以网上找到,标记的工作量还是很大的,这里讲做好xml文件之后怎么做成lmdb。
1、首先在github上下载一个caffe-ssd,然后编译caffe-ssd,这个编译的方法网上有很多,这里就不多说了。编译好之后在./data中输入指令下载VOC0712数据集:【因为下面的两个脚本还调用了其他的Python文件,所以还要 make pycaffe】
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar wget http: //host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar wget http: //host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar tar -xvf VOCtrainval_11-May -2012.tar tar -xvf VOCtrainval_06-Nov -2007.tar tar -xvf VOCtest_06-Nov -2007.tar解压之后如下图所示,在VOCdevkit文件夹内有两个文件夹,VOC2007和VOC2012,第一个文件夹是我生成的lmdb文件。
2、创建lmdb格式的数据集
cd caffe ./data/VOC0712/create_list.sh ./data/VOC0712/create_data.sh下面贴出来creat_list.sh的代码:
#!/bin/bash root_dir=####这里改到你数据集的路径 sub_dir=ImageSets/Main bash_dir= "$(cd "$(dirname "${BASH_SOURCE[0]}") " && pwd)" for dataset in trainval test do dst_file=$bash_dir/$dataset.txt if [ -f $dst_file ] then rm -f $dst_file fi for name in VOC2007 VOC2012 do if [[ $dataset == "test" && $name == "VOC2012" ]] then continue fi echo "Create list for $name $dataset..." dataset_file=$root_dir/$name/$sub_dir/$dataset.txt img_file=$bash_dir/$dataset "_img.txt" cp $dataset_file $img_file sed -i "s/^/$name\/JPEGImages\//g" $img_file sed -i "s/$/.jpg/g" $img_file label_file=$bash_dir/$dataset "_label.txt" cp $dataset_file $label_file sed -i "s/^/$name\/Annotations\//g" $label_file sed -i "s/$/.xml/g" $label_file paste -d' ' $img_file $label_file >> $dst_file rm -f $label_file rm -f $img_file done # Generate image name and size infomation. if [ $dataset == "test" ] then ./caffe-ssd/build/tools/get_image_size $root_dir $dst_file $bash_dir/$dataset"_name_size.txt"#这个路径也要改下 fi # Shuffle trainval file. if [ $dataset == "trainval" ] then rand_file=$dst_file.random cat $dst_file | perl -MList::Util=shuffle -e 'print shuffle(<STDIN>); ' > $rand_file mv $rand_file $dst_file fi donecreate_data.sh下面的这个代码就是要做成lmdb格式的数据集了。
cur_dir=$(cd $( dirname ${BASH_SOURCE[0]} ) && pwd ) root_dir=./caffe-ssd###这里的路径改一下, cd $root_dir redo= 1 data_root_dir= "./caffe-ssd/data/xuelang" ###这里的路径改一下,
dataset_name="VOC0712" mapfile= "./caffe-ssd/data/VOC0712/labelmap_xuelang.prototxt" ###这里的路径改一下,然后就能看到lmdb格式的数据集就生成了。注意这里照着博主的改法就可以了,先执行create_list.sh脚本再执行create_data.sh脚本,数据集要提前准备好。
anno_type="detection" db= "lmdb" min_dim= 0 max_dim= 0 width= 0 height= 0 extra_cmd= "--encode-type=jpg --encoded" if [ $redo ] then extra_cmd= "$extra_cmd --redo" fi for subset in test trainval do python $root_dir/scripts/create_annoset.py --anno-type=$anno_type --label- map-file=$mapfile --min-dim=$min_dim --max-dim=$max_dim --resize-width=$width --resize-height=$height --check-label $extra_cmd $data_root_dir $root_dir/data/$dataset_name/$subset.txt $data_root_dir/$dataset_name/$db/$dataset_name "_"$subset "_"$db examples/$dataset_name done
如果是自己的数据集的话要先用标记的程序标记目标位置,生成xml文件,然后按照voc数据集的格式去生成lmdb文件。
二、图片和label做成lmdb格式(用于图片分类)
1、首先将同一label的train数据集放到一个文件夹内,在该文件夹内打开terminal输入find -name "*.jpg*" > trainval.txt,这样就可以将该文件夹内所有的图片全部存到txt中;
2、生成的txt中,将jpg替换成jpg 1 (1是这些图片对应的label,中间有空格)
3、将所有的train。txt合在一起,图片也全部放到train文件夹中,将所有的test的txt和图片同样操作。
4、在examples/imagenet下找到create_imagenet.sh文件,如下,修改
#!/usr/bin/env sh # Create the imagenet lmdb inputs # N.B. set the path to the imagenet train + val data dirs set -e EXAMPLE=examples/imagenet DATA=data/teeest#这里要改成上图的数据路径, TOOLS=build/tools VAL_DATA_ROOT=./caffe-ssd/data/teeest/val/
TRAIN_DATA_ROOT=./caffe-ssd/data/teeest/train/
# Set RESIZE= true to resize the images to 256x256. Leave as false if images have # already been resized using another tool. RESIZE= true ##是不是要resize if $RESIZE; then RESIZE_HEIGHT= 128 RESIZE_WIDTH= 128 else RESIZE_HEIGHT= 0 RESIZE_WIDTH= 0 fi if [ ! -d "$TRAIN_DATA_ROOT" ]; then echo "Error: TRAIN_DATA_ROOT is not a path to a directory: $TRAIN_DATA_ROOT" echo "Set the TRAIN_DATA_ROOT variable in create_imagenet.sh to the path" \ "where the ImageNet training data is stored." exit 1 fi if [ ! -d "$VAL_DATA_ROOT" ]; then echo "Error: VAL_DATA_ROOT is not a path to a directory: $VAL_DATA_ROOT" echo "Set the VAL_DATA_ROOT variable in create_imagenet.sh to the path" \ "where the ImageNet validation data is stored." exit 1 fi echo "Creating train lmdb..." GLOG_logtostderr= 1 $TOOLS/convert_imageset \ --resize_height=$RESIZE_HEIGHT \ --resize_width=$RESIZE_WIDTH \ --shuffle \ $TRAIN_DATA_ROOT \ $DATA/train.txt \ $EXAMPLE/ilsvrc12_train_lmdb echo "Creating val lmdb..." GLOG_logtostderr= 1 $TOOLS/convert_imageset \ --resize_height=$RESIZE_HEIGHT \ --resize_width=$RESIZE_WIDTH \ --shuffle \ $VAL_DATA_ROOT \ $DATA/val.txt \ $EXAMPLE/ilsvrc12_val_lmdb#保存的路径和名字,需要的话可以更改 echo "Done."5、运行这个sh文件,就可以生成lmdb文件了。
三、语义分割的数据集(按像素分类)待补充,暂时还没有用到,等用到的时候再更新吧