Zero-Shot Image Retrieval（零样本跨模态检索）

最新推荐文章于 2025-03-07 14:11:31 发布

上杉翔二

最新推荐文章于 2025-03-07 14:11:31 发布

阅读量5.7k

点赞数 7

分类专栏：深度学习多媒体和多模态文章标签： zero-shot 零样本跨模态检索 CVAE GAN 跨模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39388410/article/details/113736971

版权

上一篇博文简要整理了元学习和少样本学习，本篇文章重点整理几篇利用零样本学习做检索的文章。该问题的难度在于使用人类草图被用作查询以从不可见的类别中检索照片：

草图和图片的跨模态域差异大。sketch只有物体的轮廓，与image相比只有很少的信息。
由于不同人的绘画风格不一样，sketch的类内方差也很大。
怎么适应大规模检索，适应从Unseen中检索出图片。

在这里插入图片描述
A Zero-Shot Framework for Sketch Based Image Retrieval
来自ECCV2018。主要是思想是利用生成模型来解决问题，这样做的好处是通过生成模型，可以补充一些sketch信息，从而能使模型能够学会将草图的轮廓、局部形状等特征与图像的相应特征联系起来。具体模型如上图，左边和右边是作者的两个架构CVAE和CAAE，即分别用了两类主流的生成模型做测试（VAE和GAN）。

CVAE是使用条件变分自编码器，即将某一个特征作为条件参与到VAE的重建，然后直接可以得到有损失 $L=-D_{KL}(a(z|x_{img,x_{sketch}})||p(z|x_{sketch}))+E[log p(x_{img}|z,x_{sketch})]$ 为了保留sketch的潜在对齐关系，加入重建loss，即图中的regularrization loss： $L_{rec}=\lambda||f_{NN}(x'_{img})-x_{sketch}||^2_2$

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。