笔者最近在做行人重识别问题,故下面以提升reID的准确率为例:
1. 扩大数据集
调研CUHK01/CUHK03,要小心各个数据集中的bias(比如只有两个摄像头下的照片)
同时,为了做比较,所以先只在market1501上测试。
2.做数据增强(旋转,翻转,平移)
采用了先resize到256,再crop一个227*227的策略。以50%的概率做镜像。
3.triplet loss
目前体验下来这个loss的好处在于,当分类的task收敛之后,这个loss相当于一个multitask,会继续tune 特征。
将网络修改成2stream的结构。最后加入tripletloss。
修改了batch sampling的方式,每次取一半same class的,取一半diff class的sample。(这个比例我调整为1:3)
4.结构问题
alexnet比vgg16效果好,我也是真的不懂了。。。。。
5.multi-task
测试了行人姿态的代码,期待使用其作为multitask。
6.距离
normal后的余弦距离和欧式距离是一样的。
baseline: http://www.liangzheng.org/Project/state_of_the_art_market1501.html
vgg16
caffenet mAP = 0.267864, r1 precision = 0.508907
caffenet-2stream mAP = 0.378533, r1 precision = 0.615499