《Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval》论文学习

最新推荐文章于 2024-06-03 22:38:11 发布

waiall

最新推荐文章于 2024-06-03 22:38:11 发布

阅读量410

点赞数 2

分类专栏： java 文章标签：深度学习

本文链接：https://blog.csdn.net/uestc_huhu/article/details/114849290

版权

java 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

在这里插入图片描述

abstract

提出的新方法：Learn- ing Cross-Aligned Latent Embeddings (LCALE)
通过特定模态的变分自动编码器，寻找多模态特征和类别嵌入共享的低维隐藏空间。

LCALE Approach

通过三个特定模态的VAE(for iamge text class)整合到一个mVAM(公共潜在的嵌入空间)

通常，在VAE中采用变分推论来找到潜在变量z上的真实条件概率分布p（z | x）。由于p（z | x）的难处理性，将其最接近的后验q（z | x）用作近似值

前一项表示重建误差，而后一项则是先验正则项，用于衡量Kullback-Leibler（KL）散度的程度。

条件概率分布q（z | x），p（x | z）是编码器和解码器的形式。
p（z）是建模为多元高斯分布的z的先验分布。
在这里插入图片描述
tips：论文理解大概，找到亮点就行！！！！
补充！

1.提出一种替代基于GAN的ZS-CMR方法，而是通过自编码器在低维的潜在空间中生成潜在嵌入。
2.对于不同的模态数据和类别嵌入，提出了交叉重建和交叉对齐的方法，有效的实现了低维空间中，将知识传递到空间中的不可见类。
3.在5个常用的数据集上，对两种跨模态情况，用所提出的方法，在任务上的有效性和最新性能。

各种loss的形式与含义

在这里插入图片描述
这是里面backbone VAE的损失计算形式，也是提出这种方法的loss的主要形式。

公式第一项是重构loss，后面是KL散度，p(z)是z的先验分布。

结合三个独立的编码器得到多模态的自动编码器来学习一个共享的潜在嵌入空间，首先输入每个模态将其编码到潜在的特征空间，并进一步通过解码器重构原始的数据。

在这里插入图片描述

Cross-Reconstruction with Latent Embeddings. 在这里插入图片描述
在共享特征空间的基础上，重构不仅在本模态内进行，还可以跨模态。
mVAE允许来自同一类的另一个模态数据Xn来重构实例Xm的模态

Cross-Alignment in Latent Embedding Space
为了保证不同模态的潜在嵌入在共享空间类的连续性，有两种跨模态对齐的方案
1.用类别嵌入作为桥梁，利用类嵌入作为桥梁，使潜在嵌入的多元高斯分布在成对模态上对齐。
在这里插入图片描述
m,n表示不同的模态，则有

在这里插入图片描述
进一步将上述公式应用到特殊例子，图像与类别嵌入，文本与类别嵌入则有
交叉对齐的损失形式

在这里插入图片描述
2.显示增强两种模式的语义关联，图像与文本潜在类别嵌入的最大平均差异
（MMD），MMD准则是一种基于核的距离函数，用于度量在交叉模态分析中成对实例的相关性。

Class-embeddings Reconstruction with Cycle Consis- tency
为了加强不同模态特征和同一类别在潜在空间里的语义特征连续性，使用循环一致约束保证类嵌入的鲁棒性构造。
在这里插入图片描述
最后目标函数如下

分别为 mVAE模态类重构，跨模态重构，跨模态对齐，循环一致约束类嵌入。

waiall

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
《Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval》论文学习

abstract提出的新方法：Learn- ing Cross-Aligned Latent Embeddings (LCALE)通过特定模态的变分自动编码器，寻找多模态特征和类别嵌入共享的低维隐藏空间。LCALE Approach通过三个特定模态的VAE(for iamge text class)整合到一个mVAM(公共潜在的嵌入空间)通常，在VAE中采用变分推论来找到潜在变量z上的真实条件概率分布p（z | x）。由于p（z | x）的难处理性，将其最接近的后验q（z | x）用作近似值.
复制链接

扫一扫