DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

 

 

1.数据集结构

Deep Fashion是CUHK的MMLAB提供的公开数据集, 包含了80万张图片。

 

 

 

 

 

首先为图像生成 形容词+名词的描述,例如‘印着动物的裙子’,然后将名词作为类别标签,共生成了50种标记分类。

 

然后将形容词作为对应的属性标签,所有图像中出现频率在前1000位的属性被记录。这些属性被分为5个组别,分别是

 

 

 texture, fabric, shape, part, style

 

Landmark:对特定部位定义了关键点,以及某些位置的可见性。

 

DeepFashion一共包括4个benchmark:

 

Category and Attribute Prediction:50个细分类别与1000个属性,289,222张图片,对于属性分类,测评的标准是top-k准确率,对于属性预测则是top-k 召回率标准。

 

2.Approach

作者提出FashionNet结构,同时预测属性与landmark,整个网络可以进行端到端的学习。

 

 

网络整体结构基于VGG-16,但是对最后一个卷积层进行了修改,使之更适合当前任务。

 

 

倒数第二个卷积层的输出后接了三个分支,分别是橘色的用于提取全局特征,蓝色的用于预测landmark和可视性,以及绿色的用于提取局部特征层,蓝色和绿色的分支输出联合到一起接全连接层预测类别,属性。前向传播时,fc7预测的landmark送入pool5提取出local feature。

 

 

Landmark pooling layer:

 

 

 

 

Landmark pooling layer 也就是pool5_local的输入是conv4的输出特征图,以及预测的landmark prediction,visibility

首先不可见的location被置为0,然后对landmark location周围的区域进行maxpool作为输出.

 

 

 

Loss:

 

 

 L_landmark = 

 

对Landmark计算L2损失,其中D代表样本数量,lj为Ground Truth,vj代表当前landmark的可视性

 

L_visibility 

 

L_category:1-K SoftMax loss

 

 

x为image,a为对应的attribute vector.wpos和wneg分别是正负样本(?)在训练集中所占的比例,

 

 

 

Triplet损失

 

3.Experiments

与Resnet-50相比

上图展示了对于landmark预测的准确率,可以看到当归一化的距离阈值设置为0.1时,所有的8个landmark都能够以80%以上的检测率检测到结果。

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值