基于caffe的googlenet的多标签检测

本文是进一步继续上文基于googlenet inception v3模型的多标签检测的研究,上文的链接为基于Inception v3多标签训练,当博主用该模型训练结果时,会出现测试数据集准确率远低于训练准确率,例如博主就用该模型训练了一个多标签数目总共200多个,而训练数据集总共13000张图片,测试集为3000张图片,此时训练的准确度高达100%,而且迭代次数50次就达到了96%,测试的准确度却只有45%,低的可怜,查阅了一下各种相关内容,总结了产生这样的一个结果主要有几个方面:

  1. 训练集太少,而训练参数过多,模型产生了过拟合;
  2. 该inception v3模型只训练最后的输出层,这样会使产生训练的准确度及测试的准确度不高;
  3. 该模型所使用的优化方法为SGD,使用其它的优化方法可能会产生更好的效果。
解决这一问题的方法有四种:
  1. 使用更多的训练集,不过这需要人工进行标注,耗费人力资源;
  2. 引入dropout以及正则化,这两项对于解决过拟合问题具有一定的效果;
  3. 使用生成式对抗神经网络,但是一般使用生成式对抗神经网络需要原始的数据集很大,才能生成与数据集具有相似信息的图片;
  4. 采用更好的优化方法;
  5. 更换多标签训练模型;
对于第一种方法就不奢望了,博主使用第二种方法引入了dropout之后会发现,准确率提高了2%左右,但是依然是杯水车薪无济于事,而且博主引入正则化之后,发现出现了最后的模型并不收敛,但是当进行单标签训练的时候,引入正则化会发现测试准确率提升1%左右,可能是正则化对多标签并不友好,而第三种方法所需原始数据集很大,并不适用于13000张训练图片,第四种方法所使用的优化方法可以使模型快速收敛,但仍然对于测试准确率没有任何帮助,于是博主决定更换模型,关于新模型及相关代码已经发布到github上,感兴趣的读者可以阅览https://github.com/Numeria-Jun/multi-labels-googLeNet-caffe
测试图片
博主要训练的图片一共13000多张,测试图片3314张,图片如下:

  

每个图片均有三个标签,分别是车的typeyearname

打开github上的lable_map.txt,可以看见图片的多标签名称,如audi tt hatchback 2011 00000,其中audi tt为车的namehatchback为车的type2011位车的year标签,最后的00000为图片目录,目录为00000里的图片的标签均为audi tt hatchback 2011,例如001465.jpg该图片的所在目录就为00000,它的标签为audi tt hatchback 2011

现在需要对车进行标注,在文件new_label_train中我们可以看到标记的样式,例如00032/003913.jpg 15 8 39,表示00032目录下的003913.jpg的标签为15year标签),8type标签),39name)标签,其中15对应与label1.txt文件中的索引为15标签(从0开始)即2012,同理可知8label2.txt文件中的索引为8的标签即sedan39label3.txt文件中索引号为39的标签即buick verano


修改caffe配置

   caffe默认只支持单标签的分类,为此我们需要修改配置。此时我们需要将caffe中默认的convert_imageset.cpp删除,并将github中的convert_

multilabel.cpp以及car_multi/data/classification_multilabel.cpp放置在caffetools文件夹中,然后重新编译环境

使用如下命令行重新编译环境:

make clean
make all
make test 
make pycaffe
make runtest

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值