waiall-CSDN博客

原创《Implicit Class-Conditioned Domain Alignment for Unsupervised Domain Adaptation》

abstract我们提出了一种无监督域适应的方法——重点关注域内类不平衡和域间类分布转移的实际考虑——从类条件域对齐的角度来看。当前用于类条件域对齐的方法旨在基于目标域的伪标签估计显式最小化损失函数。然而，这些方法以错误累积的形式受到伪标签偏差的影响。我们提出了一种无需直接从伪标签中显式优化模型参数的方法。相反，我们提出了一种基于采样的隐式对齐方法，其中样本选择过程由伪标签隐式引导。理论分析揭示了在未对齐的类中存在域鉴别器捷径，这是通过提出的隐式对齐方法来解决的，以促进域对抗学习。实证结果和消融研究证实

2021-08-11 21:35:50 601

原创《Deep Subdomain Adaptation Network for Image Classification》

Abstract我们提出了深子域自适应网络(DSAN)，它通过基于局部最大平均差异(LMMD)在不同域上对齐域特定层激活的相关子域分布来学习传输网络。我们的DSAN非常简单但有效，不需要对抗性训练，收敛速度快。大部分前馈网络模型都可以通过最小均方误差损失进行扩展来实现自适应，而最小均方误差损失可以通过反向传播进行有效训练。贡献(1)提出了一种新的子域自适应深度神经网络体系结构，该体系结构通过捕获每个类别的细粒度信息来扩展深度自适应网络的能力。(2)我们证明了DSAN这种非对抗性的方法可以取得显著的效

2021-06-19 23:35:16 1713

原创《Cross-Domain Gradient Discrepancy Minimization for Unsupervised Domain Adaptation》

Abstract本文提出了一种跨域梯度差异最小化(CGDM)方法，该方法可以明确地最小化源样本和目标样本生成的梯度的差异。具体来说，梯度为目标样本的语义信息提供了线索，可以作为一个很好的监督，以提高目标样本的准确性。为了计算目标样本的梯度信号，我们进一步通过聚类的自监督学习获得目标伪标签。creativity我们注意到源和目标样本之间的梯度差异与准确性有关:假设有一个准确的分类器，源数据和目标数据会产生相似的梯度信号来更新分类器。我们的关键思想是，我们希望失去的两个域不仅接近最终模型，而且在整个优化过

2021-06-15 12:07:59 982

原创《Transformer-Based Source-Free Domain Adaptation》

Abstract提出了一个基于Transformer的通用有效框架TransDA，用于学习SFDA通用模型。具体来说，我们将Transformer作为注意力模块，并将其注入到卷积网络中。这样可以使模型的注意力转向目标区域，从而有效地提高模型对目标区域的泛化能力。此外，提出了一种新的自监督知识精馏方法，以适应带有目标伪标签的变压器，从而进一步鼓励网络聚焦于目标区域。...

2021-06-04 23:06:38 828 1

原创《DSN》补充

我们假设我们的源域和目标域的区别主要在于低级图像统计的分布，并且它们具有具有相似分布的高级参数和相同的标签空间。

2021-05-31 16:20:52 92

原创《Domain Separation Networks》

Abstract现有的方法要么关注于将表示从一个域映射到另一个域，要么学习提取域不变性的特征。由于只关注于创建两个域之间的映射或共享表示，他们忽略了每个域的单独特征。明确地建模每个领域的独有的可以提高模型提取领域不变特征的能力。受私有共享组件分析工作的启发，我们明确地学习两个子空间的图像表示:一个组件对每个域私有，另一个组件跨域共享。我们的模型不仅被训练在源域执行我们关心的任务，而且还使用分割表示来重建两个域的图像。Introduction我们的模型为每个域引入了私有子空间的概念，它捕获特定于

2021-05-29 22:33:03 420

原创《Preserving Semantic Consistency in Unsupervised Domain Adaptation Using Generative Adversarial Net》

目的大多数现有的基于GAN的无监督域自适应技术在域匹配时没有考虑语义信息，因此当源域数据和目标域数据语义不同时，这些方法会降低性能。本文提出了一种端到端的新型语义一致生成对抗网络(SCGAN)。该网络通过在特征层捕获语义信息，从源域和目标域生成无监督域自适应图像，实现源域对目标域的匹配。本文提出了一种端到端的新型语义一致生成对抗网络(SCGAN)。该网络通过在特征层捕获语义信息，从源域和目标域生成无监督域自适应图像，实现源域对目标域的匹配。方法域自适应(DA)是一种特殊类型的迁移学习，其中源数据(训

2021-05-19 17:38:39 350

原创《Cross-Modal Retrieval Augmentation for Multi-Modal Classification》论文学习

在这里，我们将探索使用图像的非结构化外部信息源及其相应的字幕来改进视觉问答(VQA)。首先，我们训练了一种新的对齐模型，将图像和字幕嵌入到相同的空间中，使图像-字幕检索的性能有了很大的提高。其次，我们证明了使用训练的对齐模型的检索增强多模态变压器在强基线上改进了VQA结果。...

2021-05-12 21:24:09 331

原创《Learning Cross-Modal Common Representations by Private–Shared Subspaces Separation》论文学习

Abstract我们提出了一种新的模型——私有共享子空间分离(P3S)来显式学习划分为两类子空间的不同表示:1)在共享子空间中捕获跨模态相关的公共表示和2)在两个私有子空间中建模每个模态内的干扰的私有表示。在一阶段联合学习过程中，利用共享子空间和私有子空间之间的正交性约束，我们的模型能够通过完全排除每个模态内部的干扰，学习到共享子空间中不同模态的更有效的共同表示。Introduction如图2所示，我们的p3被设计为由三个子网组成的端到端网络结构:1)设计共享子空间学习子网**(SNet)，有效减小异

2021-04-22 11:26:42 397

原创《Unsupervised Visual–Textual Correlation Learning With Fine-Grained Semantic Alignment》论文学习

Abstractthis article proposes an unsupervised visual–textual correlation learning (UVCL) approach to construct correlations without any manual annotation.1)提出了一种无监督语义引导的跨媒体关联挖掘方法，以弥合可视化数据和文本数据之间的异构鸿沟。我们测量图像和句子之间的语义匹配程度，并根据图像中提取的概念生成描述性句子，进一步以非监督的方式增加训练数据

2021-04-22 08:57:31 314 1

原创《Zero-shot Cross-modal Retrieval by Assembling AutoEncoder and Generative Adversarial Network》论文学习

overall framework ofour proposed AAEGANhighlight our contributions1.我们提出了一种新型的aegan模型，它将AEs和gan组合在一起，将它们的优点结合起来，相互提高性能，并且能够同时学习共同的潜在空间、综合多模态特征和转移知识。2. 为了加强对公共潜在空间的学习，我们提出了一种有效的分布对齐约束，以保持模式间的语义兼容性。这一约束有利于学习更鲁棒的公共空间，并获取与z - cmr方案兼容的不同模态的跨模态相关性。3.我们在4个广泛

2021-04-18 15:32:21 298 2

原创《Integrating Information Theory and Adversarial Learning for Cross-modal Retrieval》论文学习

Abstract为了解决异构性差距和语义差距带来的挑战，我们提出了integrating Shannon information theory and adversarial learning.（香农信息理论),在异质性差距方面，我们将模态分类与信息熵最大化对立地结合起来。我们建立了一种模态分类器(作为鉴别器)，根据文本和图像的不同统计特性来区分它们。该鉴别器利用其输出概率计算香农信息熵，用以衡量其所进行的模态分类的不确定性。此外，特征编码器(作为生成器)将单模态特征投影到共享空间中，并试图通过最大化其输

2021-04-15 15:36:41 475 2

原创《Adaptive Fusion Techniques for Multimodal Data》论文学习

Abstract在本文当中，我们提出了一种自适应的融合技术，旨在从不同的模式有效地建模上下文，本文没有为网络定义一个确定性的融合操作，例如连接，而是让网络决定“如何”更有效地组合一组给定的多模态特征。我们提出了两种网络:1)自动融合，它学习压缩来自不同模式的信息，同时保留上下文;2)GAN融合，它从互补的模式中规则化给定上下文的学习潜在空间。对多模态机器翻译和情感识别任务的定量评估表明，与现有方法相比，我们轻量级的自适应网络可以更好地从其他模式建模上下文，其中许多方法采用了大规模的基于transforme

2021-04-14 21:09:08 1490 3

原创《Discriminative Semantic Transitive Consistency for Cross-Modal Learning》论文学习

跨模态学习的判别语义传递一致性abstract我们提出和利用判别性语义转移一致性来学习这种空间表示的问题，确保数据点即使被转移到其他模态之后也能被正确分类。语义传递一致性的基础上，我们还加强了传统的距离最小化约束，使得两种形式对应数据点的投影在表示空间中更接近。我们分析和比较两者的贡献损失项和他们的相互作用，为任务。此外，我们还为每个模态合并了语义循环一致性。我们通过明确的消融研究经验证明，不同的成分有更好的表现。我们还提供定性的结果来支持这些建议。related work就是不再利用以前共享的分

2021-04-14 16:28:01 228

原创《Variational Interaction Information Maximization for Cross-domain Disentanglement》论文学习

abstractCross-domain disentanglement 是将学习表示划分为领域不变表示和领域特定表示的问题，是成功实现领域转移或者测量两个领域之间语义距离的关键，在信息论的基础上，我们把领域不变和领域特定表示的同时学习作为多信息约束的联合目标，这不需要对抗训练或者梯度反层，我们给出了目标的一个易于处理的界，并提出了交互信息自动编码器（IIAE）的生成模型，我们的方法揭示了跨域解缠的理想表征及其与变分自编码(VAE)的联系，在图像到图像的转换和跨域检索任务中验证了该模型的有效性。我们进一步

2021-04-07 12:01:16 641

原创《Cross-modal retrieval常用torch版本loss》总结

1.MSE Loss(回归类)均分误差：Creates a criterion that measures the mean squared error (squared L2 norm) between each element in the input xx and target yy . loss = nn.MSELoss() input = torch.randn(3, 5, requires_grad=True) target = torch.randn(3, 5)

2021-04-06 17:20:47 525

原创《Cross-modality Person re-identification with Shared-Specific Feature Transfer Yan》论文学习

AbstractCross-modality person re-identification (cm-ReID) 现有的研究主要集中在学习模态——共享表示，通过将不同的模态嵌入到同一个特征空间中，降低特征差异的上界。本文提出了一种新的cross-modality shared- specific feature transfer algorithm((termed cm-SSFT),以探索模态共享信息和模态特定特征的潜力，以提高再识别性能。我们根据共享的特征对不同模态样本的亲和力进行建模，然后在模态之间

2021-04-01 22:56:25 309

原创《Progressive Cross-Modal Semantic Network for Zero-Shot Sketch-Based Image Retrieval》论文学习

AbstractZero-shot sketch-based image retrieval (ZS-SBIR)是一个特别的跨模态检索任务，涉及通过可用的手绘草图，在零次学习的设想下，去搜索自然图片。以前的方法都是设想把草图和图像特征映射到一个低纬度的公共空间，来完成高效率的搜索。并且同时，对齐和映射特征到他们的语义特征（类别级的词向量），将knowledge从seen到unseen进行迁移。然而对齐与投影是耦合的，结果，因为缺乏准确的对齐最终导致不理想的零次检索效果。为了解决上述问题，提出了一个nove

2021-03-29 11:21:09 548

原创《北大Cross-modal retrieval》3.28论文总结

课外笔记总结跨模态检索通常需要将不同模态数据嵌入到一个公共表示空间中，以便进行对齐、比较和融合，但如何找到最佳嵌入空间是一个极其困难的问题。不同模态之间的精细对齐问题，以及多模态预训练的有效架构，这些问题依然具有挑战性，未来多模态方向会向可落地、可迁移、少样本的多模态模型系统展开。当前多模态数据由于其本身结构和特点（语义抽象类别细化非结构化）主要面临三大问题：（一）语义鸿沟 (semantic gap) 指的是计算机表示系统与人类认知系统对同一个概念形成不同描述的差异。举例：CV中，给个图像，唯

2021-03-28 15:13:07 847

原创《Zero-Shot Cross-Media Embedding Learning With Dual Adversarial Distribution Network》论文学习

abstract提出双重对抗分销网络（DADN），以学习常见的嵌入并从不同类别的词嵌入中探索知识。提出了具有最大均值差异准则的分布匹配与双重GAN结合的方法，从而增强了普通嵌入和类别词嵌入之间的分布匹配，提出了具有媒介间损失和四元损失的对抗媒介间度量约束，进一步对媒介间相关信息进行建模，提高了语义排序能力。OUR DADN APPROACH其中Se-GAN和Re-GAN的结构如下所示：对于每种媒体类型，首先提取原始表示，然后Se-GAN从原始表示生成嵌入，然后Re-GAN转换生成的嵌入以将原始数

2021-03-23 20:52:25 304

原创《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习

摘要本文提出了一种新的方法 modal-adversarial hybrid transfer network (MHTN)，它提出的主要目的是：实现知识从单模态源域向目标源域进行转移，并学习跨模态的公共表示。它有端到端两个子网络结构，第一是提出了一种模态共享知识转移子网络，以星型网络结构将知识从源域中的单个模态共同转移到目标域中的所有模态，从而散布与模态无关的补充知识以促进交叉模态共同表示学习。第二提出了一种模态对抗式语义学习子网，在公共表示生成器与模态鉴别器之间构建对抗训练机制，使通用表示形式对语

2021-03-22 10:24:44 593

原创《跨模态检索Summary3.19》

Summary问题重述论文篇问题重述看了一周的跨模态论文，还是只能略知一二，但不积跬步无以至千里，下面概括一下所看所想。跨模态数据呈现底层特征异构（text and image）、高层语义（class）相关的特点，既要表示底层特征，又要对高层语义建模以及关联模态之间的联系。跨模态检索在方法上主要分为两大类：一类是实值表示学习，一类是二值表示学习（跨模态哈希方法），实值表示学习直接对从不同模态提取特征进行学习，而二值表示学习是把特征先映射到汉明二值空间（在信息论中，两个等长字符串之间的汉明距离是两个字

2021-03-19 19:04:02 1298

原创《Deep adversarial metric learning for cross-modal retrieval》论文学习

摘要跨模态检索的核心方法就是通过寻找最大化相关的嵌入空间来缩减不同模态之间的鸿沟。本文提出了一个新的深度对抗网络度量学习方法（DAML），DAML将那些成对的标签数据映射到共享的潜在特征子空间。其中为了最大化利用模态之间的相关性，通过对抗网络引入额外的正则化。The framework of DAML如上图所示它包括四个部分，图片特征映射，文字特征映射，模态分类器，跨模态相似度量提出的方法1.有n个样本In,每个样本是成对的张量信息Vi和Ti构成，但它们是不能被直接比较的，为了能够特征直接比较，

2021-03-18 17:28:55 619

原创《Ternary Adversarial Networks With Self-Supervision for Zero-Shot Cross-Modal Retrieval》论文学习

abstract收到zero-shot learning的启发，提出了一种新模型，Ternary Adversarial Networks With Self-Supervision(三元对抗网络的自监督TANSS)；亮点：1.两个语义特征学习子网络，获取不同模态的内部数据结构，在公共语义空间保留魔台关系。2.一个自监督的语义子网络，运用可见和不可见的类别标签作为guide指导知识从可见到不可见迁移。3.利用多抗学习的方案来最大化不同模态之间语义特征的相关性和一致性。可实现三个子网已集成到的T

2021-03-16 17:31:58 338

原创《Learning Cross-Aligned Latent Embeddings for Zero-Shot Cross-Modal Retrieval》论文学习

abstract提出的新方法：Learn- ing Cross-Aligned Latent Embeddings (LCALE)通过特定模态的变分自动编码器，寻找多模态特征和类别嵌入共享的低维隐藏空间。LCALE Approach通过三个特定模态的VAE(for iamge text class)整合到一个mVAM(公共潜在的嵌入空间)通常，在VAE中采用变分推论来找到潜在变量z上的真实条件概率分布p（z | x）。由于p（z | x）的难处理性，将其最接近的后验q（z | x）用作近似值.

2021-03-15 22:19:51 454 2

原创《KL散度、WGAN、VAE》

KL散度KL 散度是根据两个概率分布的表达式来算它们的相似度的。WGAN相对于原始GAN1.判别器最后一层去掉sigmoid2.生成器和判别器的loss不取log3.每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c4.不要用基于动量的优化算法（包括momentum和Adam），推荐RMSProp，SGD也行VAEVAE的Encoder尽量向正态分布看齐。对抗的原理在于：当Decoder训练不好，重构误差大，那么就降低噪声，使得拟合容易，当Decoder训练的好

2021-03-15 20:09:02 461 2

原创《Correlated Features Synthesis and Alignment for Zero-shot Cross-modal Retrieval》论文学习

本文是我进入跨模态学习看的第一篇论文，同时也是本人导师的一片CCF A最新佳作。自然要好好阅读一番，进入这个领域！yyds，奈何能力不够，只能凭照自己理解来写了。欢迎交流！明天继续！...

2021-03-14 22:25:01 354 1

原创《One/zero-shot learning？》

Zero-shot learning 指的是之前没有这个类别的训练样本。但是训练GAN得到一个映射X->Y。如果这个映射足够好的话，我们就可以处理没有看到的类。比如，我们在训练时没有看见过狮子的图像，但是我们可以用这个映射得到狮子的特征。一个好的狮子特征，可能就和猫，老虎等等比较接近，和汽车，飞机比较远离。1.迁移学习迁移学习的两种极端形式（1）one-shot learning(2) zero-shot learning2.在CCFA《Correlated Featur..

2021-03-14 10:57:49 104

原创《跨模态检索Survey》

2.overview跨模态搜索的两种方式：（1）真实值的表示学习learned common representations for various modalities of data are real-valued.2.According to the information utilized to learn the common representation, the cross-modal retrieval methods can be further divided into fo

2021-03-13 14:40:55 216

原创力扣《调整数组顺序使奇数位于偶数前面》

输入一个整数数组，实现一个函数来调整该数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半部分。1.写代码要打草稿，书写，仔细，不然容易出错。2.代码风格很重要3.java当中求类型的长度数组数组.length字符串字符串.length()集合集合.size()class Solution { public int[] exchange(int[] nums) { int left = 0; int rig.

2021-03-10 17:13:42 71

翻译 java 《继承性》

1.封装性，继承性，多态性继承是多态的前提继承主要解决的问题就是：共性抽取父类：也可以叫基类、超类子类：也可以叫派生类继承关系类的特点：(1).子类可以拥有父类的“内容”；(2).子类还可以拥有自己的类；2.继承的格式public class 父类名称 {}子类格式public class 子类名称 extends 父类名称 {}3.继承中成员变量的访问特点（1）直接通过子类对象访问成员变量左边是谁，就优先用谁，没有则向上找（2）通过成员方法访问成员变量方法属于

2021-03-10 10:31:45 75

原创《深度学习》配置服务器记录

一、环境1.创建自己环境conda create --name environment_name python=3.62.激活环境conda activate /home/std/huqian/environment/conda3.关闭环境conda deactivate4.conda环境的卸载conda remove -n environment_name --all二、多个screen开启screen1.screen -S seq2seq2.快捷键Ctrl+a+

2021-03-09 23:28:17 104

原创力扣《斐波那契数列》

写一个函数，输入 n ，求斐波那契（Fibonacci）数列的第 n 项（即 F(N)）。1.首先用的递归，超出实现限制2.用传统动态规dp[i]划依旧gg3.采用循环数列，可以减少空间和时间的复杂度 /*if (n==0) { return 0; } else if (n==1) { return 1; } else { return fib(n-1)+fib.

2021-03-09 20:12:38 210

翻译 java《静态static关键字》

一旦用了static关键字，那么这样的内容不再属于对象自己，而是属于类的，本类的对象，都共享。1.静态static关键字修饰成员方法static修饰成员方法，就成为了静态方法。静态方法不属于对象，而是属于类的。若果没有static关键字，那么必须创建对象，通过对象调用。obj.methodStatic();//正确，不推荐，不使用对象MyClass.methodStatic();//直接类型.静态方法名//本类当中的静态方法，可以省略类名称。1.静态方法不能访问成员变量，只能访问静态.

2021-03-09 17:35:43 60

翻译 java《字符串的相关方法》

1.==是进行对象的地址值比较，如果确实需要字符串的内容比较；//public boolean equals(Object obj)参数可以是任何对象；//推荐,写法 “abc”.equals(str); A.equalsIgnoreCase(B);//忽略大小写 2.字符串的获取相关方法public int length();public String concat(String str);public char charAt(int index);public int indexO

2021-03-09 15:57:50 61

翻译 java《String类、Arrays类、Math类、static类》

1.字符串特点：（1）字符串内容永不可变(2) 字符串不可改变，字符串可以共享使用（3）字符串效果上相当于是char[]字符数组，但底层原理是byte[]字节数组2.创建字符串方式public String();public String(char[] array);public String(byte[] array);一种直接创建String str1 = new String();char[] charArray = {‘A’，‘B’，‘C’};String str2 =

2021-03-09 10:24:37 49

翻译剪绳子II

给你一根长度为 n 的绳子，请把绳子剪成整数长度的 m 段（m、n都是整数，n>1并且m>1），每段绳子的长度记为 k[0],k[1]…k[m - 1] 。请问 k[0]k[1]…*k[m - 1] 可能的最大乘积是多少？例如，当绳子的长度是8时，我们把它剪成长度分别为2、3、3的三段，此时得到的最大乘积是18。答案需要取模 1e9+7（1000000007），如计算初始结果为：1000000008，请返回 1。2 <= n <= 1000思路（贪心法）1.这题与前面剪绳.

2021-03-08 19:39:01 83

翻译 java《ArrayList》集合概述和基本使用

/*数组的长度不可以发生改变，ArrayList集合的长度是可以随意变化的。对于ArrayList来说，有一个<E>代表泛型。泛型：也就是装在集合当中的所有元素，全都是统一的类型泛型：只能是引用类型，不能是基本类型*/ArrayList<String>list =new ArrayList<>();//创建一个ArrayList集合，集合名称是list，里面装的是String字符串类型的数据//ArrayList直接打印得到的不是地址值，而是内容，如果内容是空

2021-03-08 16:56:32 94

翻译 java 《Scanner类、Random类、匿名对象、集合ArrayList》

1.APIjava.lang包下的内容不需要导包，其他包需要import;引用类型步骤：（1）导入包，（2）创建，（3）使用2.匿名对象的说明//匿名对象就是只有右边的对象，没有左边的名字和赋值运算符new person().name="huhu";//匿名对象只使用唯一的一次，只使用一次可以匿名对象。Scanner sc = new Scanner(System.in);methodParam(sc);//使用匿名对象来进行传参methodParam(new Scanner(Syst

2021-03-07 21:31:51 103

翻译剪绳子

思路主要是利用动态规划的思想，第一次接触。1.每一次写代码只考虑最平常的一次即可。2.思想很巧妙，只可意会不可言传，需要多多思考接触。class Solution { public int cuttingRope(int n) { int[]dp = new int[n+1]; dp[2]=1; for (int i=3;i<n+1;i++) {//总长度i for(int j=2;j<i;j++) {//每

2021-03-07 13:11:31 60

空空如也

空空如也