上一篇博文简要整理了元学习和少样本学习,本篇文章重点整理几篇利用零样本学习做检索的文章。该问题的难度在于使用人类草图被用作查询以从不可见的类别中检索照片:
- 草图和图片的跨模态域差异大。sketch只有物体的轮廓,与image相比只有很少的信息。
- 由于不同人的绘画风格不一样,sketch的类内方差也很大。
- 怎么适应大规模检索,适应从Unseen中检索出图片。
A Zero-Shot Framework for Sketch Based Image Retrieval
来自ECCV2018。主要是思想是利用生成模型来解决问题,这样做的好处是通过生成模型,可以补充一些sketch信息,从而能使模型能够学会将草图的轮廓、局部形状等特征与图像的相应特征联系起来。具体模型如上图,左边和右边是作者的两个架构CVAE和CAAE,即分别用了两类主流的生成模型做测试(VAE和GAN)。
- CVAE是使用条件变分自编码器,即将某一个特征作为条件参与到VAE的重建,然后直接可以得到有损失 L = − D K L ( a ( z ∣ x i m g , x s k e t c h ) ∣ ∣ p ( z ∣ x s k e t c h ) ) + E [ l o g p ( x i m g ∣ z , x s k e t c h ) ] L=-D_{KL}(a(z|x_{img,x_{sketch}})||p(z|x_{sketch}))+E[log p(x_{img}|z,x_{sketch})] L=−DKL(a(z∣ximg,xsketch)∣∣p(z∣xsketch))+E[logp(ximg∣z,xsketch)]为了保留sketch的潜在对齐关系,加入重建loss,即图中的regularrization loss: L r e c = λ ∣ ∣ f N N ( x i m g ′ ) − x s k e t c h ∣ ∣ 2 2 L_{rec}=\lambda||f_{NN}(x'_{img})-x_{sketch}||^2_2 Lrec=λ∣∣fNN