Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios
摘要:针对现有两个问题:手工特征和属性间关系的忽略。本文不会把属性割裂开,单独的去看。也不会像DeepSAR那样把多属性当成一个一个属性去看。比如性别是女和头发长的关系。
引言:Visual attribute recognition is an important research area
in computer vision due to its high-level semantic knowledge, which could bridge low-level features and high level
human cognitions.
作用image retrieval [16,19], object recognition [4,5,20],
face recognition [11, 17], person re-identification [12–14].
It has also shown great potential in smart video surveillance [8] and video-based business intelligence [15]
基于CNN的DeepSAR和DeepMAR
SAR把属性独立化当成一个二分类问题处理
MAR把问题属性当成multi-label问题处理
本文有两个部分:
一、SAR代替手工特征把每个属性一个一个地去处理
二、MAR去挖掘属性间关系,提出了加权s型交叉熵损失来处理属性间的不平衡。
方法:
一、SAR
N个行人图片,L个属性,每个图片是xi, i ∈ 1, …, N.相对应的标签向量为yi,yil代表相对应图片的某个属性
yil在0到1之间。其目的就是为了单独去预测每一个属性。如图2(a)。(c)中的ConvNet用来共享SAR和MAR的网络结构。其包括五个卷积层和三个全连接层。每层后采用ReLu neuralunits。前两层ReLu后面添加最大池化层和局部标准层 第五层ReLu后加最大池化层。***SAR输入图片,输出两个数值***来反应该行人图片是不是有该属性。SAR是由Caffenet微调过来的,。采用SoftMax loss。第l个属性的预测损失公式如下。. pˆi,yil是SoftMax的第l个属性输出概率。
二、MAR
是用来处理属性间的关系。
如图2(b),与SAR不同的是***输入是一个具有属性标签向量的图像,损失函数共同考虑所有的属性***
它采用sigmoid交叉熵损失函数来作为多属性识别的任务。
pˆil是示例xi的第1个属性的输出概率。yil是真实标签,它表示示例xi是否具有第1个属性。
公式3考虑到了所有属性,把它们联系在一起
然而属性间并不都是均匀的分布,很多时候也是不平衡的。例如 V领衣服 与 没有头发间 相比 穿便装上衣 与 是男人 几乎没有什么正向例子。为了解决这种不均衡,提出公式五
在公式6中定义的wl是第1个属性的损失权重。pl是训练集中第1个属性的正比值。公式6中的σ是一个调整参数,在我们的实验中被设置为1。本文在接下来的实验中将改进的损失函数用于DeepMAR方法
实验:
先在PETA上面跑,然后为了进一步验证在APis上面跑
一、PETA
因为PETA的数据分布差异大,对其的计算标准是计算它的平均识别准确度,它是正识别度和负识别度的平均值
9500用作训练,1900验证,7600测试。基于caffenet最后一层的全连接层被微调,且随机分配正负数据,使训练数据更均等。首先图片更改尺寸到256 256,然后再随机镜像或者裁剪到227 用以增加数据
MAR的数据沿用SAR的数据。底层网络能学习到颜色和一些背景信息,高层识别高级信息。
初始学习率设置为0.001,权重衰减为0.005,公式5作为其损失函数。
三个算法再PETA上的成果的比较如图所示,MRFr2是基于手工特征的一种算法,
由于正样本数量低,反而影响了MAR的识别效果,如果给的数据多,且正样本数量多。那么就会超过SAR
二、APiS
图片尺寸改到128 48 ,将其划分为五份,计算其ROC 和nAUC
学习率这些都和PETA相同
与Fusion方法做比。