Retrieval based on EI tree
针对于图像检索中替换属性的问题,属性的表示贯穿训练始终,但是属性之间的关系却没有被利用好。本文使用了EI-tree的结构,表示属性间的关系。
1. EI tree使用背景
图像检索的深度学习方法已经非常流行,但是深度学习中向量的难以解释的含义阻碍了用户反馈和图像检索的整合。同时,有许多在线购物网站根据产品分类和领域知识将时尚商品组织成层次结构。本文就是使用EI Tree的结构来建立商品间的层次结构。
2. Retrieval based on EI tree核心要点
1. EI Tree
假设我们有一组属性 C = { 上 衣 、 领 口 、 袖 子 、 颜 色 、 裤 子 , 腰 部 分 的 衣 服 ( r i s e ) , f r y } C=\{上衣、领口、袖子、颜色、裤子,腰部分的衣服(rise),fry\} C={
上衣、领口、袖子、颜色、裤子,腰部分的衣服(rise),fry},(这里fry是指的bottom的什么位置?google也搜不到)EI树中有两种关系,排他性和独立性。涉及属性的概念一般都是独立的,比如裤子长度和颜色。而涉及产品的概念都是都是排他的,比如上衣和裤子。通过这两种关系,我们就可以建立EI树:

实线表示同层具有排他性,虚线表示同层具有独立性。
2.文本&图像学习
本文使用了在ImageNet上进行了预训练的ResNet-50,来进行图像检索的训练。给定一个224$\times 224 的 图 像 I , 经 过 前 向 传 播 得 到 特 征 向 量 224的图像I,经过前向传播得到特征向量 224的图像I,经过前向传播得到特征向量f_{I}\in R^{2048} 。 所 以 a n c h o r 图 像 。所以anchor图像 。所以anchor图像f_{I_{a}} 和 n e g 图 像 和neg图像 和neg图像f_{I_{n}}$可以表示为:
f I a = F r e s n e t ( I a ) , f I n = F r e s n e t ( I n ) f_{I_{a}}=\mathcal{F}_{resnet}(I_{a}),f_{I_{n}}=\mathcal{F}_{resnet}(I_{n}) fIa=Fresnet(Ia),fIn=Fresnet(In)
而对于文本描述的属性问题,作者使用了BLSTM计算文本表示。使用索引 t = 1 , . . . , T t=1,...,T t=1,...,T表示单词在句子中的位置,基本LSTM的隐藏单元用下述公式来计算:
h t ⃗ = L S T M ( W e m b x t , h t − 1 ⃗ ) \vec{h_{t}}=LSTM(W_{emb^{x_{t}}},\vec{h_{t-1}}) ht=LSTM(Wembxt,ht−1)
这里的 x t x_{t} xt是单词 x t x_{t} xt的向量表示, W e m b W_{emb} Wemb是文本嵌入矩阵。双向的训练可以用 h t ⃗ \vec{h_{t}} ht和 h t ← \stackrel{\leftarrow}{h_{t}} ht←来表示。最终的文本是用max pooling融合 h t ⃗ + h t ← \vec{h_{t}}+\stackrel{\leftarrow}{h_{t}} ht+ht←后的 f S f_{S} fS表示。
和图像表示一样,文本表示也输入anchor文本和neg文本,特征向量表示为:
f S a = F b l s t m ( S a ) , f S n = F b l s t m ( S n ) f_{S_{a}}=\mathcal{F}_{blstm}(S_{a}),f_{S_{n}}=\mathcal{F}_{blstm}(S_{n})

本文探讨了如何使用EI Tree结构解决图像检索中的属性表示问题。通过建立属性间的排他性和独立性关系,EI Tree能够帮助解释图像特征。文章介绍了使用预训练的ResNet-50和BLSTM计算图像与文本特征,然后结合EI Tree进行属性概率解释,通过交叉熵和rank损失函数进行训练。最终,该方法用于计算图像间的相似度并进行属性修改,以实现更精确的检索。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



