2021年04月_waiall

原创《Learning Cross-Modal Common Representations by Private–Shared Subspaces Separation》论文学习

Abstract我们提出了一种新的模型——私有共享子空间分离(P3S)来显式学习划分为两类子空间的不同表示:1)在共享子空间中捕获跨模态相关的公共表示和2)在两个私有子空间中建模每个模态内的干扰的私有表示。在一阶段联合学习过程中，利用共享子空间和私有子空间之间的正交性约束，我们的模型能够通过完全排除每个模态内部的干扰，学习到共享子空间中不同模态的更有效的共同表示。Introduction如图2所示，我们的p3被设计为由三个子网组成的端到端网络结构:1)设计共享子空间学习子网**(SNet)，有效减小异

2021-04-22 11:26:42 400

原创《Unsupervised Visual–Textual Correlation Learning With Fine-Grained Semantic Alignment》论文学习

Abstractthis article proposes an unsupervised visual–textual correlation learning (UVCL) approach to construct correlations without any manual annotation.1)提出了一种无监督语义引导的跨媒体关联挖掘方法，以弥合可视化数据和文本数据之间的异构鸿沟。我们测量图像和句子之间的语义匹配程度，并根据图像中提取的概念生成描述性句子，进一步以非监督的方式增加训练数据

2021-04-22 08:57:31 317 1

原创《Zero-shot Cross-modal Retrieval by Assembling AutoEncoder and Generative Adversarial Network》论文学习

overall framework ofour proposed AAEGANhighlight our contributions1.我们提出了一种新型的aegan模型，它将AEs和gan组合在一起，将它们的优点结合起来，相互提高性能，并且能够同时学习共同的潜在空间、综合多模态特征和转移知识。2. 为了加强对公共潜在空间的学习，我们提出了一种有效的分布对齐约束，以保持模式间的语义兼容性。这一约束有利于学习更鲁棒的公共空间，并获取与z - cmr方案兼容的不同模态的跨模态相关性。3.我们在4个广泛

2021-04-18 15:32:21 300 2

原创《Integrating Information Theory and Adversarial Learning for Cross-modal Retrieval》论文学习

Abstract为了解决异构性差距和语义差距带来的挑战，我们提出了integrating Shannon information theory and adversarial learning.（香农信息理论),在异质性差距方面，我们将模态分类与信息熵最大化对立地结合起来。我们建立了一种模态分类器(作为鉴别器)，根据文本和图像的不同统计特性来区分它们。该鉴别器利用其输出概率计算香农信息熵，用以衡量其所进行的模态分类的不确定性。此外，特征编码器(作为生成器)将单模态特征投影到共享空间中，并试图通过最大化其输

2021-04-15 15:36:41 483 2

原创《Adaptive Fusion Techniques for Multimodal Data》论文学习

Abstract在本文当中，我们提出了一种自适应的融合技术，旨在从不同的模式有效地建模上下文，本文没有为网络定义一个确定性的融合操作，例如连接，而是让网络决定“如何”更有效地组合一组给定的多模态特征。我们提出了两种网络:1)自动融合，它学习压缩来自不同模式的信息，同时保留上下文;2)GAN融合，它从互补的模式中规则化给定上下文的学习潜在空间。对多模态机器翻译和情感识别任务的定量评估表明，与现有方法相比，我们轻量级的自适应网络可以更好地从其他模式建模上下文，其中许多方法采用了大规模的基于transforme

2021-04-14 21:09:08 1501 3

原创《Discriminative Semantic Transitive Consistency for Cross-Modal Learning》论文学习

跨模态学习的判别语义传递一致性abstract我们提出和利用判别性语义转移一致性来学习这种空间表示的问题，确保数据点即使被转移到其他模态之后也能被正确分类。语义传递一致性的基础上，我们还加强了传统的距离最小化约束，使得两种形式对应数据点的投影在表示空间中更接近。我们分析和比较两者的贡献损失项和他们的相互作用，为任务。此外，我们还为每个模态合并了语义循环一致性。我们通过明确的消融研究经验证明，不同的成分有更好的表现。我们还提供定性的结果来支持这些建议。related work就是不再利用以前共享的分

2021-04-14 16:28:01 229

原创《Variational Interaction Information Maximization for Cross-domain Disentanglement》论文学习

abstractCross-domain disentanglement 是将学习表示划分为领域不变表示和领域特定表示的问题，是成功实现领域转移或者测量两个领域之间语义距离的关键，在信息论的基础上，我们把领域不变和领域特定表示的同时学习作为多信息约束的联合目标，这不需要对抗训练或者梯度反层，我们给出了目标的一个易于处理的界，并提出了交互信息自动编码器（IIAE）的生成模型，我们的方法揭示了跨域解缠的理想表征及其与变分自编码(VAE)的联系，在图像到图像的转换和跨域检索任务中验证了该模型的有效性。我们进一步

2021-04-07 12:01:16 643

原创《Cross-modal retrieval常用torch版本loss》总结

1.MSE Loss(回归类)均分误差：Creates a criterion that measures the mean squared error (squared L2 norm) between each element in the input xx and target yy . loss = nn.MSELoss() input = torch.randn(3, 5, requires_grad=True) target = torch.randn(3, 5)

2021-04-06 17:20:47 527

原创《Cross-modality Person re-identification with Shared-Specific Feature Transfer Yan》论文学习

AbstractCross-modality person re-identification (cm-ReID) 现有的研究主要集中在学习模态——共享表示，通过将不同的模态嵌入到同一个特征空间中，降低特征差异的上界。本文提出了一种新的cross-modality shared- specific feature transfer algorithm((termed cm-SSFT),以探索模态共享信息和模态特定特征的潜力，以提高再识别性能。我们根据共享的特征对不同模态样本的亲和力进行建模，然后在模态之间

2021-04-01 22:56:25 311

uestc_huhu的博客