Visual Fashion-Product Searchat SK Planet

TaewanKim,SeyeoungKim,SangilNa,HayoonKim,MoonkiKim,Byoung-KiJeon 

Machine Intelligence Lab. 

SK Planet, Seong Nam City, South Korea

 {taey16,seyeong,sang.il.na,hayoon,moonki,standard}@sk.com

1.Introduction

文章提到计算机视觉应用中的一个经典问题:给出一副图片来寻找相似的时尚产品图片(衣物)。由于没有明确的关于任意物品之间相似的定义,这个问题还是很具有挑战性的。

作者认为,尽管深度学习方法被提出后,在通用的视觉物体识别上有了很好的结果,但在时尚产品领域我们需要的是能够模仿人类对于时尚产品相似度感知的特殊模型。作者在表1中列举了一些分类后的属性,并将其看做是多标签的分类任务。


文中提出了90种属性,如果对90多种属性分别训练二分类器效率较低,而且某些属性之间是有依赖关系的,所以作者选用LSTM网络学习属性之间的隐含依赖结构。

2.Building the fashion-attribute dataset

数据集中包含了19个时尚的类别,和超过90种的属性。数据集中共有1百万张图片, 每张图片都标记有ROI。

3 Fashion-product search system

Offline: 将图片和文本信息(textual meta,貌似就是label)作为输入,从文本信息中提取 fashion-category information送入 fashion-attribute recognition model。 fashion-attribute recognition model预测相应的属性。

3.1Vision encoder network

 ResCeption采用了 inception-v3和ResNet的shortcut connection结构作为图像特征提取器。作者在迁移学习至caption任务中展示了这个网络相比VGG16的性能优势。

3.2 Multi-label classification as sequence classification by using the RNN

作者讨论了多标签分类任务的常用方法 binary relevance method(BM)和label combination method(CM)。BM方法忽视了标签之间的内在相关性,CM虽然考虑到上述问题,但是最坏情况下的时间复杂度是缺点。为了解决这些问题,作者提出使用RNN。RNN的目标是最大化联合概率p(α_t,α_t-1,....α_0),其中α对应单个的属性,t是序列的索引。


将联合概率改写为条件概率的乘积,


Res Ception为θ_I,LSTM网络为θ_seq.

3.3 Guided attribute-sequence generation



整个网络的结构如下,ResCeption Net提取图像的特征送入LSTM,相当于LSTM的h0,然后根据当前h0的c-state得到α0的概率分布,然后采样得到α0,在给定h0,c0和α0的情况下得到α1的条件概率分布。以此类推得到整个序列直到遇到EOS标志。为了生成符合guided fashion-category的信息,在采样得到α0后选择guided fashion-category.

3.4 Guided ROI detection

本文的ROI检测器是基于Faster R-CNN的,整个ROI检测器接受一张图片和来自LSTM属性序列生成器的guided fashion-category信息,这个信息用于寻找图像中对应的Item位置,在推理阶段检测器会拒绝掉不匹配的物体类别。这种额外的guidedfashion-category信息对于MAP的提升做出了贡献。最后,颜色和图形特征被从ROI中提取出来。

从图中可以看出,给出不同的guidedfashion-category信息,对于同一张图片的检测结果会有所不同(ROI不同)

3.5 Visual feature extraction

从ROI中提取特征使用的是预训练的GoogleLeNet,然后使用0作为阈值对提取的特征二值化。作者这么做的理由包括CNN靠后的特征图是较为稀疏的,以及在线性层中的偏置项对输出的特征空间的零中心对齐起到了补偿的作用。因此作者认为一个经过训练的合适的神经网络提取的特征即使被二值化了也是好的特征。在实验中,简单的阈值处理后仅仅对map造成了0.02%的损失,此外还使用了HSV提取颜色特征,通过计算图形和颜色的特征并以一定权重组合出问题图像和检索图像之间的距离。

4总结

整体的结构如图所示,Attribute recognition model由视觉编码神经网络(提取图像特征)以及LSTM网络组成,输入图片和guided fashion-category(T-shirt,pants等),得到相应的属性序列,随后将图片送入ROI detector(Faster R-CNN),检测相应的item,并根据guided fashion-category去除掉不符合的item。最后从检测到的item中用CNN提取出视觉和颜色特征
用于检索,FARM生成的属性被用于特征的索引。

在Online过程中,对于用户给出的图像,FARM生成对应的属性(包括guided information),然后送入ROI检测器,提取图像和颜色特征,We access to the inverted index addressed by the generated a set of fashion-attributes, and then get a postings list for each fashion-attribute.We perform nearest-neighbor retrieval in the postings lists so that the search complexity is reduced drastically while preserving the semantic similarity. (应该就是拿到FARM提取到的属性作为索引在Postings list获得对应的特征,然后做NN)

这篇的结构用到了4个神经网络,先整体提取特征然后LSTM生成属性然后Faster R-CNN检测ROI然后对ROI提取特征,亮点应该是用LSTM生成属性序列(注意到了属性之间的联系).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值