1.数据集结构
Deep Fashion是CUHK的MMLAB提供的公开数据集, 包含了80万张图片。
首先为图像生成 形容词+名词的描述,例如‘印着动物的裙子’,然后将名词作为类别标签,共生成了50种标记分类。
然后将形容词作为对应的属性标签,所有图像中出现频率在前1000位的属性被记录。这些属性被分为5个组别,分别是
texture, fabric, shape, part, style
Landmark:对特定部位定义了关键点,以及某些位置的可见性。
DeepFashion一共包括4个benchmark:
Category and Attribute Prediction:50个细分类别与1000个属性,289,222张图片,对于属性分类,测评的标准是top-k准确率,对于属性预测则是top-k 召回率标准。
2.Approach
作者提出FashionNet结构,同时预测属性与landmark,整个网络可以进行端到端的学习。
网络整体结构基于VGG-16,但是对最后一个卷积层进行了修改,使之更适合当前任务。
倒数第二个卷积层的输出后接了三个分支,分别是橘色的用于提取全局特征,蓝色的用于预测landmark和可视性,以及绿色的用于提取局部特征层,蓝色和绿色的分支输出联合到一起接全连接层预测类别,属性。前向传播时,fc7预测的landmark送入pool5提取出local feature。
Landmark pooling layer:
Landmark pooling layer 也就是pool5_local的输入是conv4的输出特征图,以及预测的landmark prediction,visibility
首先不可见的location被置为0,然后对landmark location周围的区域进行maxpool作为输出.
Loss:
L_landmark =
对Landmark计算L2损失,其中D代表样本数量,lj为Ground Truth,vj代表当前landmark的可视性
L_visibility
L_category:1-K SoftMax loss
x为image,a为对应的attribute vector.wpos和wneg分别是正负样本(?)在训练集中所占的比例,
Triplet损失
3.Experiments
与Resnet-50相比
上图展示了对于landmark预测的准确率,可以看到当归一化的距离阈值设置为0.1时,所有的8个landmark都能够以80%以上的检测率检测到结果。