本文是进一步继续上文基于googlenet inception v3模型的多标签检测的研究,上文的链接为基于Inception v3多标签训练,当博主用该模型训练结果时,会出现测试数据集准确率远低于训练准确率,例如博主就用该模型训练了一个多标签数目总共200多个,而训练数据集总共13000张图片,测试集为3000张图片,此时训练的准确度高达100%,而且迭代次数50次就达到了96%,测试的准确度却只有45%,低的可怜,查阅了一下各种相关内容,总结了产生这样的一个结果主要有几个方面:
- 训练集太少,而训练参数过多,模型产生了过拟合;
- 该inception v3模型只训练最后的输出层,这样会使产生训练的准确度及测试的准确度不高;
- 该模型所使用的优化方法为SGD,使用其它的优化方法可能会产生更好的效果。
- 使用更多的训练集,不过这需要人工进行标注,耗费人力资源;
- 引入dropout以及正则化,这两项对于解决过拟合问题具有一定的效果;
- 使用生成式对抗神经网络,但是一般使用生成式对抗神经网络需要原始的数据集很大,才能生成与数据集具有相似信息的图片;
- 采用更好的优化方法;
- 更换多标签训练模型;
每个图片均有三个标签,分别是车的type,year,name。
打开github上的lable_map.txt,可以看见图片的多标签名称,如audi tt hatchback 2011 00000,其中audi tt为车的name,hatchback为车的type,2011位车的year标签,最后的00000为图片目录,目录为00000里的图片的标签均为audi tt hatchback 2011,例如001465.jpg该图片的所在目录就为00000,它的标签为audi tt hatchback 2011。
现在需要对车进行标注,在文件new_label_train中我们可以看到标记的样式,例如00032/003913.jpg 15 8 39,表示00032目录下的003913.jpg的标签为15(year标签),8(type标签),39(name)标签,其中15对应与label1.txt文件中的索引为15标签(从0开始)即2012,同理可知8为label2.txt文件中的索引为8的标签即sedan,39位label3.txt文件中索引号为39的标签即buick verano。
修改caffe配置
caffe默认只支持单标签的分类,为此我们需要修改配置。此时我们需要将caffe中默认的convert_imageset.cpp删除,并将github中的convert_
multilabel.cpp以及car_multi/data/classification_multilabel.cpp放置在caffe的tools文件夹中,然后重新编译环境
使用如下命令行重新编译环境:
make clean
make all
make test
make pycaffe
make runtest