自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(149)
  • 收藏
  • 关注

原创 Supervised Online Hashing via Hadamard Codebook Learning

摘要我们的方法有以下的步骤:1,给每一个类标签生成一个高维二进制码。2,运用LSH去将类标签的高维二进制码与哈希码对齐。3,我们使用在线SGD去优化,每个chunk可以只含一条数据。4,如果出现过未知名的类,直接可以选取一个没使用过的高维二进制码表示它。介绍现有方法有以下不足:1,不是在线的,不适合现实场景。2,要求输入数据必须是成batch的,不适合一条一条地输入,也就不适合用SGD来解决。3,无监督的方法不能充分利用标签信息,有监督的方法举例想要的效果又很远,有监

2021-11-22 20:46:34 212

原创 Towards Optimal Discrete Online Hashing with Balanced Similarity

摘要

2021-11-22 19:34:09 161

原创 Probability Weighted Compact Feature for Domain Adaptive Retrieval

摘要这篇文章把以前的domain adaption的工作分为single-domain和cross-domain,然后个人理解,single domian就是源域和目标域区分性其实不大,cross domain就是两者区分很大。前者只需要做一个简单的分类投影,后者则分别需要学习源域和目标域的哈希码,然后进行排序,这样后者就和跨模态检索结合起来了。提出方法贝叶斯的观点 求这几个变量 ...

2021-10-16 22:09:13 233

原创 Universal Weighting Metric Learning for Cross-Modal Matching

Motivation1,度量学习是什么?在分类中就不光是分类,而是能把相近的拉近,距离远的推远。首先,这里的距离有很多种,包括欧氏距离,马氏距离等,其次,这里拉近和推远的方式也有很多种,本文中的就是赋予权重,给easy sample小的权重,给hard sample大的权重,让函数更好地学习。2,主要考虑两个问题:如何采样和如何拉近推远。以前的方法包括SCAN就是随机采样,拉近推远就是给不同的样本相同的权重。而我们正是优化这两个问题:采样变成了满足条件才进行采样: ...

2021-08-24 16:58:33 128

原创 无监督跨模态分类及其整理

一,通过raw feature学习到S,然后固定不动指导哈希码学习JDSH:Motivation1,学习到简单的 S,这个 S 不单单是 S_I + S_T,这样把模态割裂的方式是不好的,应该把模态互相融合,你中有我,我中有你,一个I与所有I的相似度乘以对应的pair中的一个T与所有T的相似度然后相加。构成一个S_fusion(这与DGCPN相似,DGCPN只是进行相乘的时候做了一个KNN.) 2,接...

2021-08-24 11:24:31 544

原创 Comprehensive Distance-Preserving Autoencoders for Cross-Modal Retrieval

摘要这是无监督跨模态的一个早期的工作,之前的无监督方法主要考虑拉近属于同一对象的两两关系。而我们的方法不仅考虑了pairwise关系,也考虑了同模态和不同模态的距离。我们的方法主要包括四个部分:1,去噪自编码器。取出SIFT提取特征中的噪声。2,全面的保持距离的公共空间。学习公共空间,使得模态内和模态间的信息在这个公共空间得到保持。3,共同的损失函数。去噪损失函数+pair的损失+不pair的与原空间对比的损失。4,一种无监督的跨模态相似度度量方式。提出方法 去噪自编码器

2021-08-23 22:14:45 155

原创 Creating Something from Nothing:Unsupervised Knowledge Distillation for Cross-Modal Hashing

摘要这篇文章的作者脑子非常活,先训练无监督,把无监督练好了,得出相似度矩阵,然后带到有监督里面,无监督和有监督分属于两种训练,训练过程中互不干扰。介绍所谓的有监督,我们在训练过程中不是真的需要每一件样本被标注,我们只需要估计两两之间的相似度就好了,如果只使用标签就太hard了,因为只是0和1. 我们不如用更好的距离表示,提取出暗知识。无监督之所以不好是因为两点:1,pair-wise的对比知识不够。2,无监督输出的是不准确的语义信息。这促使我们用无监督的信息去指导一个有监督模型,这是知识

2021-08-16 16:36:15 216

原创 Unsupervised Label Noise Modeling and Loss Correction

摘要我们训练的CNN网络一般有这个性质,在面对有噪声的数据时,一般先拟合干净数据,再拟合噪声数据。1.所以我们就可以得到一个混合分布,根据loss值来断定这个loss是属于clean-label还是noisy_label.2.然后我们也可以根据迭代产生的新loss来修正这个分布。3.并且我们还加入了一个混合增强模型能够更一步提高精度。提出方法一般的分类损失 噪声标签建模如何判读一个损失是属于干净label的还是label的,我们有一...

2021-08-14 10:44:40 1042

原创 Contrastive Multiview Coding

摘要对于多视角学习,每一个视角都是有噪声并且不完整的,但是重要的信息却被所有的视角共享。所有我们要学习一个强大的模型去学习视角间不变的信息,也就是最大化相同场景但是不同视角的共有信息。我们发现对比损失比交叉预测损失更好,并且学习的视角越多,越能捕获到潜在场景的语义。提出方法预测学习预测学习的目的就是从 v1 预测 v2, 依靠一个中间变量z, 但这会使得 v2 之间的像素互相独立(为什么互相独立?我也不大清楚),失去了学习结构的能力。 两个视角的对比学习 ...

2021-08-13 17:19:53 289

原创 Deep Graph-neighbor Coherence Preserving Network for Unsupervised Cross-modal Hashing

摘要目前的无监督跨模态检索精确度都不行,因为只依靠跨模态特征是不够的。并且有一种场景是两组数据有不同的表示,但是有共同的潜在空间,这种情况就是仅仅靠跨模态特征是不够的。因此我们提出了我们的DGCPN.这个方法从图模型衍生出来,并且通过考虑数据和它的邻居考虑了图近邻关系。...

2021-08-09 22:10:38 739 1

原创 Learning Cross-Modal Retrieval with Noisy Labels

摘要有噪音标签的数据集应该如何处理?我们提出了MRL方法,这包含两个模块:RC模块是用来使得深度学习网络专注于clean data而并非noise data.MC模块是使用对比学习,最大化不同模态数据之间的互信息。这可以分别用来化解噪音的影响和交叉模态的干扰。提出方法1,不同模态的数据映射到同一空间 其中i是模态,j是样本的例子。2,鲁棒性聚类分配我们首先找出K个聚类点,把它们的集...

2021-08-09 11:39:43 369

原创 Online Sketching Hashing

摘要最近,基于哈希的近似最近邻ANN搜索已经引起了广泛的关注。这种方法有两个关键的问题:1,首先,在真实的世界,数据是以流的数据传递,但是现今大多数的哈希方法是基于batch的。2,其次,当数据集变得很大的时候,把所有的数据运送到内存是不可能的。在这篇文章,我们采用矩阵素描的同时去处理这两个问题。矩阵素描就是通过很小的尺寸就可以保持数据集的主要特征。通过一个小的素描尺寸,我们的方法可以用一个在线的方式学习哈希函数。目前主要面临的问题1,数据以流的方式持续可用。2,随着数据

2021-06-14 09:34:01 306

原创 Online Hashing

摘要我们提出了一个在线哈希学习算法。1,更新的哈希模型被上一次学习的哈希函数惩罚,目的是保持上一轮中的重要信息。2,我们也提出了一个累积损失的紧边界。(至于为什么提出这个紧边界,我也不求甚解,并且代码里面都没有对这个...

2021-06-11 16:17:42 176

原创 Flexible Online Multi-modal Hashing for Large-scale Multimedia Retrieval

摘要现有的方法基于batch或者是无监督学习方法,它们有很多的缺点:不能有效地处理流数据,学习到的哈希码识别能力不强,对于变化的流数据学习缺乏灵活性。所以我们提出了FOMH,它的好处就是:1,(很虚的motivation)它可以适应性地融合各个模态,并且灵活性地为新数据学习具有判别性的哈希码,即使 部分模态已经丢失了。(这里部分模态丢失也能学习到底体现在什么地方,没看出来啊?要看相关论文找出来!)2,我们的FOMH的权重可以自动地学习,好处是可以及时捕捉流样本的变化。...

2021-06-07 10:46:17 265

原创 Dynamic Multi-View Hashing for Online Image Retrieval

摘要

2021-06-06 16:17:24 271

原创 Online Fast Adaptive Low-Rank Similarity Learning for Cross-Modal Retrieval

摘要跨模态数据之间的语义相似性是跨模态检索中的一个瓶颈问题。现有的基于batch的训练方法有着令人望而生畏的时间复杂度和空间复杂度。所以我们为跨模态检索提出了低秩双线性相似度度量。它的原理是:我们通过三联体损失,建立了相对的相似度关系,从而建立了跨模态模型。它的好处是:1,通过在hinge loss中设置margin,这种margin是基于标签空间和特征空间的两两相似度。CMOLRS有效地捕捉了多层的语义关联,并且适应了跨模态数据的语义差异。2,通过设置低秩限制,相似度函数就

2021-06-01 15:32:33 207

原创 Label Embedding Online Hashing for Cross-Modal Retrieval

摘要在线哈希是一个有前途的领域,但是这个领域仍然存在着两个问题:1,如何有效地挖掘语义信息;2,如何离散地更新哈希码;3,如何有效地更新哈希码和哈希函数。所以,我们提出了LEMON,它有很多好处:1,我们提出了一个标签嵌入框架,包括标签相似度保留和标签重建。 好处是它可以生成更有识别性的哈希码,并且减少计算的复杂度。2,它不仅可以保留新到达数据的两两相似度,也可以建立新旧数据的两两复杂度。 好处是它可以挖掘更多的相似性信息,使得优化过程不只对新到来的数...

2021-06-01 09:22:58 199

原创 Online Collective Matrix Factorization Hashing for Large-Scale Cross-Media Retrieval

摘要现有的跨模态哈希方法都是基于batch的方式学习哈希函数。现有的一些在线跨模态哈希方法可以解决这个问题。然而,这些方法存在一个很大的问题:不能根据新到来的数据更新旧的哈希码。所以我们提出了我们的方法OCMFH,这个方法有两个好处:1,OCMFH仅通过新到达的数据点重新训练哈希函数。2,它生成新数据的哈希码,并通过最新更新的哈希模式更新旧数据的哈希码。同时,我们也提出了一种去中心化策略,来解决在线哈希学习中均值变动的问题。相关工作在线哈希方法基于SGD策略的:OK

2021-05-26 22:12:57 198

原创 Online latent semantic hashing for cross-media retrieval

摘要数据经常以流的方式传输,这使得现今的现有的基于batch的方案失去了效率。所有我们提出了OLSH.这种方式有两个好处:1,只要新到来的数据参与了哈希函数的学习。 2,同时这也保持了旧数据点的语义关联。特别的是:为了学习更精确的哈希码,离散的标签映射到连续空间,在这里数据点之间 的语义相关信息可以被正确地度量。然后我们提出了OLSH的优化方式,每一轮的时间复杂度只和新到来的数...

2021-05-25 22:32:59 173

原创 Online Cross-Modal Hashing for Web Image Retrieval

摘要现有的跨模态检索方法都是基于batch的。当今的数据都是以流方式传递,批处理对于这种方式的学习效率是很低的。所以现有的在线哈希方式可以应用于CMH.然而这些在线方式不能解决两大困难:1,哈希码的快速更新。2,模态间关系的分析。我们的方法可以有效地解决上述两个问题,分别通过如下的两种方式:1,为了解决无效率地哈希码的更新,可以把哈希码拆成有效率的永久SLC矩阵和转换矩阵。时间复杂度就和总的数据库的尺寸无关了。2,并且我们的方法可以编码潜在语义关系,提升了异质性数据之间的

2021-05-23 17:26:01 240

原创 Asymmetric Supervised Consistent and Specific Hashing for Cross-Modal Retrieval

摘要如今的跨模态检索问题存在三大局限:1,之间没有工作同时挖掘多模态信息的一致性和特定模态的信息(多视角的思想)2,因为庞大的计算和存储开销,两两相似度的识别能力经常被忽略。3,离散化的问题经常被松弛化,松弛化会造成量化损失。所以这里我们提出了我们的ASCSH.它有如下特点:1,将映射矩阵分解成一致性和特定模态的矩阵。2,两两相似度和语义标签同时去指导哈希码的学习。3,我们的离散非对称结构能够有效地解决二进制约束问题,并且不需要松弛处理。关于非对称结构根据查询和检索的

2021-05-18 22:27:32 234 4

原创 Discrete Latent Factor Model for Cross-Modal Hashing

摘要现有的跨模态哈希方法主要分为两类:一类是基于松弛连续化的策略。另一类就是离散化的策略。松弛离散化策略往往训练得更快,但是精度要低一些。离散化策略往往训练得更慢,但是精度要高很多。本文的DLFH就是一种离散化的策略。提出算法我们分别视U和V是离散的图片和文本的矩阵。那么根据DCMH的那种损失,可以构造相似度矩阵,得到损失函数。 学习策略如果我们简单地翻转每个元素的符号来学习U,总时间复杂度将是,这是非常高的。如...

2021-05-18 21:30:09 197

原创 PL-ranking: A Novel Ranking Method for Cross-Modal Retrieval

摘要由于优化排序的前几位在实践中更加可靠,我们专注于提升排序列表的前几位的精度。首先,我们使用了一个pairwise的排序loss去优化排序列表的前几位。也就是WARP.其次,考虑到pairwise的方式没有考虑所有不同类别的样本,我们使用了listwise的方式去最大化类间距离,最小化类内距离。通过这种方式,类信息被很好地保留并且迭代的次数也有效地下降。最后,低秩约束被用于优化特征和标签的关系。因为将不同模态映射到公共子空间后,可以增强它们之间的相关性。优化,采用最新的FA

2021-05-16 20:43:37 79

原创 Large scale image annotation: learning to rank with joint word-image embeddings

摘要这种方法通过优化排序表中第k点的精度,并且为图片和图片的注解学习了一个共同的嵌入空间。这种方法训练起来比baseline的算法更快,并且占用的内存也更少。这个模型能够学习语义,即使这个模型没有预测出正确的结果,它也能预测出较相近的那个结果。(我的疑问:什么叫做优化排序表中第k点的精度?难道找到第k个violate点,计算完损失后再退出,就是top-k,那本文所说的k就是不确定啊,因为你不知道采样的第几个会出现violate.)WARP的思想我们这种方法通过学习排序来训练它的参

2021-05-16 16:11:34 100

原创 宽度学习(二):基于k-均值聚类算法的特征提取(只讲提取部分)

Motivation1,

2021-03-04 20:46:46 942 1

原创 宽度学习(一):宽度学习体系:有效和高效的无需深度架构的增量学习系统

Motivation深度学习: 1,时间长:由于涉及到大量的超参数和复杂的结构,大多数神经网络的训练过程非常耗时。 2,重新训练:如果要更改神经网络的结构,或者增加样本,深度学习系统将遇到一个完整的重新训练过程。宽度学习: 1,消除了训练过程长的缺点,并且提供了很好的泛化能力。 2,如果网络需要扩展,宽度学习网络可以快速重构,无需重新训练过程。Preliminaries1,RVFLNN ...

2021-03-04 17:17:12 2106 1

原创 注意力机制(四):Graph Structured Network for Image-Text Matching

Motivation1,目前已有的方法根据对象共现统计学习粗粒度对应,而不能学习结构化对象、关系和属性的细粒度对应。2,而关系对应和属性对应可以指导细粒度对象对应学习。3,目前的方法大多依赖于突出对象的对应,只学习粗略的对应,而忽略了关系和属性的对应与对象的对应同样重要。Contribution1,我们提出了一种图结构匹配网络,该网络明确地构建了图像和文本的图结构,并通过学习细粒度短语对应进行匹配。2,据我们所知,这是第一个使用图卷积层传播节点对应的工作,并使用它来推断细粒度短语对应

2021-01-26 11:44:39 597

原创 注意力机制(三):Position Focused Attention Network for Image-Text Matching

Motivation1,现有的注意机制只关注图像区域的视觉特征,而忽略了图像中的相对位置信息。2,物体在整幅图像中的相对位置是一个重要而有用的线索,Contributions1,我们整合区域的位置信息来研究图像中的物体和句子中的单词之间的对应关系。2,我们提出了一种位置聚焦的注意机制,为图像区域生成有价值的位置特征,位置特征与视觉特征共同构成了对图像区域更可靠、更完整的表达。FrameworkInitial Position Representation ...

2021-01-15 21:28:58 888

原创 注意力机制(二):Focus Your Attention: A Bidirectional Focal Attention Network for Image-Text Matching

Motivation1,只有一小部分与共同语义相关的区域或词,如果将它们全部整合在一起,就会干扰目标语义,从而导致语义失调。2,并不是所有的片段都支持特定的共享语义,因为它们中的许多与之无关,如果不相关的片段被聚合,共享语义或多或少会受到干扰。3,如果我们将焦点集中在一个方向上,就会导致对长文本或复杂图像的偏好。这是因为长文本或复杂图像包含更多的信息,从而更有可能得到较高的查询响应。所以我们采用双向度量, 即算出两个方向的相似度,然后进行相加。Framework我们首先为...

2021-01-13 21:18:56 1088

原创 自注意力嵌入(一):Learning Fragment Self-Attention Embeddings for Image-Text Matching

Motivation1,现有的策略在测试阶段需要对所有图像-文本对进行两两相似度的计算,且计算方法复杂,在实际应用场景中缺乏效率。(Stacked Cross Attention).2,我们考虑学习嵌入图像和文本,这两种异构数据模式独立投影到联合空间。Framework对于Image Embedding的操作:64 * 36 * 2048 -> 64 * 36 * 256BertAttention: BertSelfAttention: 1,做一个自注意...

2021-01-11 15:07:29 658

原创 注意力机制(一):Stacked Cross Attention for Image-Text Matching

Motivation1,上述研究没有考虑到图像区域和单词层面的潜在视觉语言对应。2,我们将赋予不同权重的图像区域和单词作为推断图像-文本相似性的上下文。Framework我们首先计算所有可能对的余弦相似矩阵 sij表示第i个区域与第j个单词的相似性。 我们根据经验发现,将相似性限制在零是有益的,并且我们将相似矩阵归一化:为了在每个图像区域上关...

2020-12-30 09:12:01 1290

原创 深度学习(二):Deep Supervised Cross-modal Retrieval

Deep Supervised Cross-modal Retrieval,CVPR 2019Motivation值得注意的是,即使分类信息已被用于一些深度学习方法,分类信息仅用于学习每一模态内部或模态间的可区分特征。语义信息(语义信息我在这里理解成公共空间到标签的映射)在这些跨模态学习方法中没有得到充分的利用。DSCMR同时最小化模态不变性损失,并采用权值共享策略在公共表示空间中学习模态不变性特征,为了保证学习的表示法在语义结构上具有辨别性,并且在模态间具有不变性,对两两标签信息和分类信息都尽

2020-12-07 09:53:28 735

原创 深度学习(一):Deep Cross-Modal Hashing

Deep Cross-Modal HashingMotivation1,非监督:不能很好地克服不同模态的壁垒。2,监督:能好一点克服不同模态的壁垒。3,深度: a,不是人工提取特征,克服壁垒更进一步。 b,几乎所有这些现有的CMH方法都是基于手工制作的特征。这些手工制作的基于特征的方法的一个缺点是特征提取过程独立于哈希代码学习过程,这意 味着手工制作的特征可能不能最优地兼容与哈希代码学习过程。4,大多数现有的CMH方法都是通...

2020-12-07 09:52:26 1309

原创 笨办法学Python之将对象名的字符串类型,转化成相应对象

1,方法一:class obj(object):       pass  a = eval('obj()') 对象名的字符串类型要加括号,用eval关键字来创建对象。2,方法二:#将用来创建对象的字符串预编译成code对象。create_obj = compile('obj()', 'create_obj.py', 'eval') #需要创建的时候,直接使用code...

2018-12-24 19:47:13 1509

原创 笨办法学python之中文字符编码问题

1,字符串中有汉字报错s1 = '我'print s1此时报错是因为源代码作为文本文件,默认是以ascii码的形式进行存储的,而ascii码中没有汉字,因此出错。解决方法是为文本文件设置编码格式,要在第一行或者第二行加上#encoding: utf-8,当然其它的格式也有gbk,gb2312,中文的话一般都是采用utf-8格式。2,控制台出现乱码(加u法)这是因为pytho...

2018-12-21 09:54:20 168 1

原创 笨办法学python之操作符号

+-***  幂运算  3**2=3^2  3**5=3^5/    10/8=1//   10//8=1.25%   取余<><=>===!=<>()  元组[]  列表{}  字典@  修饰器符  先解析@后的内容,直接就把@下一行的函数或者类作为@后边的函数的参数,然后将返回值赋值给下一行...

2018-12-20 19:40:57 132

原创 笨办法学python之字符串格式化

%d %i  有符号十进制整数 %u   无符号十进制 %c   单个字符 %s   字符串(采用str()的显示) %r   字符串(采用repr()的显示) %o   无符号八进制整数 %x %X  无符号十六进制整数 %e %E  指数(基底写为E) %f %F   浮点数 %g %G  指数(e)或浮点数(根据显示长度) %%   输出字符”%”...

2018-12-20 19:39:54 97

原创 笨办法学python之字符串转义序列

\\  转义反斜杠 \’  转义单引号 \”  转义双引号 \a  响铃 \b  退一格(Backspace) \f  换页 \n  换行 \r  回车 \t  水平制表符 \v  垂直制表符

2018-12-20 19:39:09 240

原创 笨办法学python之数据类型

1,True2,False3,NoneNone和False不同。None不是0。None不是空字符串。None和任何其他的数据类型比较永远返回False。None有自己的数据类型NoneType。你可以将None赋值给任何变量,但是你不能创建其他NoneType对象。4,strings 字符串5,numbers 数字6,floats 浮点型,分为普通形式...

2018-12-20 19:38:05 114

原创 笨办法学python之关键字

1, and  or  not  且 或 非2, del  删除列表指定索引的值,或是删除这个变量3, from  import   import关键字引入库或脚本。   from关键字用于辅助import关键字精确引入库或脚本的具体功能,而不是整个库4, while5, as 主要作用是重命名,as自己使用没有意思,它应当组成with...as..来使用,用来打破...

2018-12-20 19:35:50 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除