1.Introduction:
作者想验证这样一个假说,即共同考虑多样的服饰和属性相比独立的进行检测是否能提升检测的准确率。例如人们不会同时穿裙子和长裤,因此服饰之间存在着这样的排他性的关联。不同于以往的基于像素级别的分析,本文是基于衣物饰品的语义级别来考虑的。
本文的实现是基于 Conditional Random Field的二阶联合模型,给出一张图片考虑其对应的服饰的概率分布,输出最大后验分布signment作为检测结果。这个模型是使用姿势对齐后的特征来识别细节的属性。
2 Dataset
Chictopia dataset/Dress dataset
3 Joint detection model
联合概率的分布表示为:
其中x为features,y为one-hot label,lnz为归一化常量,Φ为给出feature对应的label的概率的似然,φ则对应属性之间的内在联系。
3.1 Data likelihood
这一项对应的Eq1的第一项,即feature和label的对应关系
3.2 Inter-label correlation
上图给出了属性之间的Pearson correlation图,对应Eq4中的ci,j.对于相同的标签c为1(相关性最强),相应的φ为0.对于不同的属性之间的相关性,则在(1,-1)之间。-1表示两者对立。相应的取值在-∞到0之间,相关性越强则对应该项的值越小。
3.3 MAP inference
给定feature X,目标是找出使得后验概率最大的Y(label set).作者使用loopy belief propagation(置信传播)来近似求解eq5.
#φ对应的w应该为负数(这样才能使得互斥的属性出现的概率最小)#
3.4 Max-margin learning
将Eq1改写为
学习问题可以表示为如下的优化问题:
作者提到用cutting-plane algorithm求解Eq6
损失函数记为Δ(Yk,Y),作者称之为class-weighted zero-one loss,
作者提出这个0-1 权重loss主要是因为数据集存在着长尾分布,许多Class并不经常出现,作者想要对出现频率更低的Class的错误预测进行更高的惩罚。Ni是数据集中标签I的样本数量,当Ni较小的时候错误的预测会带来更高的loss.
4 Localized image feature
相比那些在服饰识别之前进行人体姿势估计的方法,作者仅要求对于人体的BBOX,并从BBOX中的固定位置提取patch,这种简单的方法产生了较好的结果。
作者从训练集中学习了BBOX的位置,如图所示.这种方法的主要关注点在于能否在姿态变化的情况下保证召回率,作者的数据集中的人并没有显著的姿态变化,使得作者能够提取到足够质量的部分区域,足以覆盖目标的物品。ROI确定以后,用CNN(Alex Net)提取特征。(就是前文中的X)
5 Experimental results
作者比较了几种不同的方法:Style Descriptor,基于姿势估计的手工图像特征,使用logsitc回归.CNN Global,CNN提取特征,全身BBOX,没有局部信息,CNN Local,有局部信息,CNN Local CRF:在CNN local的基础上加入了二阶项(那个属性之间的关联项),也就是本文的方法。
作者提出CRF二阶项的加入使得accuracy和precision都获得的提升,仅仅损失了一点召回率。
6 Conclusion and future work
作者认为在对抗姿态变化和优化CNN网络结构方面还有提升的空间。
总结:这篇和SK-Planet都比较关注属性之间的内在联系,但相比上一篇用LSTM来生成属性序列,这篇直接加入了人工的先验知识(那个Pearson correlation矩阵),较为简化。此外在ROI方面也使用了简单的固定BBOX而非常用的位置检测算法。
读的时候没搞懂前文多次提起的条件随机场和置信传播用在哪了,具体是怎么训练的也没太搞懂。