《Correlated Features Synthesis and Alignment for Zero-shot Cross-modal Retrieval》论文学习

最新推荐文章于 2024-05-18 12:43:38 发布

waiall

最新推荐文章于 2024-05-18 12:43:38 发布

阅读量386

点赞数 4

分类专栏： java 文章标签：深度学习

本文链接：https://blog.csdn.net/uestc_huhu/article/details/114807161

版权

java 专栏收录该内容

28 篇文章

订阅专栏

本文是我进入跨模态学习看的第一篇论文，同时一篇CCF A最新佳作。自然要好好阅读一番，进入这个领域！yyds，奈何能力不够，只能凭照自己理解来写了。欢迎交流！

1.abstract

提出了一种相关特征整合对齐的方法，（Correlated Feature Synthesis and Alignment (CFSA)
把综合特征送入公共语义空间进行学习，不同跨模态相关的特征被提取，并且在循环一致的约束下，迁移到哪些看不到的类中去。

2.related work

在这里插入图片描述
Zero-shot Learning for Cross-modal Retrieval（将迁移学习用在跨模态搜索上）
Generative Adversarial Network for Cross-Modal Retrieval（对抗生成网络）
主要工作在ZS-CMR上，提出新的框架来整合多模态数据，公共语义空间学习和知识迁移。

3.CFSA APPROACH

1.Problem Formulation
主要是利用集合Os（训练）（image-text pairs）[四个参数：图像特征，文本特征，类别Embedding，类别便签]，里面都是seen class

相似的结合Ot（测试目标）里面都是unseen class
并且Os和Ot之间的交集为空。

目的就是在Ot上面利用在Os上学习到的综合公共特征，完成搜索。

2.Model Architecture
将可见于不可见的类的类嵌入用作语义特征
（1）两个回归器将不同模态数据的true和synthetic特征映射到公共语义空间
（2）分布对齐减少了不同模态数据之间的差异性
（3）循环一致约束减少了语料特征和最初特征之间的差异性
Vi为图片的输入特征
为syn 在这里插入图片描述
Zu是由高斯分布产生的，Ci为类别嵌入，然后进行对抗攻击。

loss如上，E()为所有可见类别图片的期望值，色哥吗D为模型参数。
在这里插入图片描述

就是要让成对的真实图像和合成图像文本实例在公共语义空间中靠的更近，代表跨模态紧密相关的语义。
统计相关性的两种新的方案：
接下来的三个损失函数都有其自己的含义，看着很复杂，但仔细去了解，已有知识足矣！
（1）
在这里插入图片描述

代表在公共语义空间匹配的概率
在这里插入图片描述

在这里插入图片描述
（2）Cross-Modal Correlation Alignment (CMCA)

to measure the distance between the covariance of common representations of the true and synthetic instances indifferent modalities to explores the overall distribution structure of all instances.

测量计算true与syn之间的距离
在这里插入图片描述
（3).Semantic Feature Reconstruction with Cycle Consistency

循环一致，让原始值与经过回归器的值尽量相似，保留的更多，融合学习！

总结

1.这是第一篇论文，摸着石头过河，所以很多都只看到了表面，相信时间的沉淀，博文会更加具有深度，不会出现词穷的情况。
2.第一次知道多模态，跨模态搜索是干嘛的，如何使用和取评估。
3.老师这里使用了迁移学习，用可以看见的类别和看不见的类别共同训练，其中利用了gan来修正结果，几个loss来保证信息不丢失，true与syn的关系，个人感觉这样训练之后，seen class的综合特征是可以运用到unseen class当中去。