qq_24876435-CSDN博客

原创 Vision GNN:An Image is Worth Graph of Nodes

ViG

2022-06-11 16:07:47 1603 2

原创 NFormer: robust person re-identification with neighbor transformer

CVPR2022年，单位：阿姆斯特丹大学，小红书文章连接：摘要：person重识别旨在跨不同相机和场景在高度不同的环境中检索行人，其中robust和discriminative特征的表示学习至关重要。大多数的研究考虑从单幅图像中学习特征，忽略了它们之间的潜在交互。然而，由于intra-identity变化较大，忽略此类交互通常会导致异常特征。为了解决这个问题，我们提出了一种邻居transformer网络,NFormer，它可以显式建模所有输入图像之间的交互，从而抑制异常特征，并从整体上获得更鲁棒

2022-05-30 21:06:32 1032

原创热爱可抵岁月漫长

肖战：语言的魅力 - 知乎小飞侠呀热爱可抵岁月漫长，温柔可挡艰难时光.....愿在自己热爱的世界里闪闪发光，不用在意别人的眼光。因为啊，热爱可抵岁月漫长！I hope you can always stand in the world you love, not care about anyone's presence.一个人的言语是在其生活环境、态度、三观、人品等多方面影响下产生的，通过肖战的各种采访和自述可以描绘出一个全面的、多样的肖战，以下是娱乐圈社畜肖战的语录合集，多面且通透的励

2022-03-30 11:18:52 413

原创 prompt工程以及在多预训练模型中的应用

Prompt—从CLIP到CoOp，Visual-Language Model新范式 - 知乎最近在看多模态预训练模型时，看到很多关于文本-图像预训练模型中的一些概念，有提高prompt的，这里参考了一些博客和知乎大神分享的内容，总结一下，方便自己以后查阅，如有错误之处，欢迎指正！文中涉及以下论文：1.CLIP: Learning Transferable Visual Models From Natural Language论文链接：https://arxiv.org/pdf/2103.0

2022-03-29 15:20:14 774

转载 VLP: A Survey on Vision-Language Pre-training

中科院自动化所：最新视觉-语言预训练综述，2022年原链接中科院自动化所：最新视觉-语言预训练综述论文链接： https://arxiv.org/abs/2202.09061摘要：在过去的几年中，预训练模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单模态领域带入了一个新的时代。大量的工作表明，它们有利于下游的单模态任务，并避免从头训练一个新的模型。那么这种预先训练好的模型可以应用于多模态任务吗？研究人员对此问题进行了探索，并取得了重大进展。本文调查了视觉语言预训练(VLP)的最新.

2022-03-29 15:04:53 465

原创 Improving description-based person-identification by multi-granularity image-text alignments-2019TIP

通过多粒度图像文本对齐改进基于描述的行人重识别摘要：基于描述的行人重识别是视频监控中的一项重要任务，需要有区别性的跨模态表征来区分不同的人。由于模态的异质性(交叉模态问题)，直接测量图像和描述文本之间的相似性是困难的，并且所有的样本属于单个类别(细粒度问题)使得这个任务比传统的图像描述匹配任务更加困难。本文提出了一种多粒度图像-文本对齐(MIA)模型，以解决基于描述的行人重识别的交叉模态细粒度问题。具体来说，有三种不同的粒度，即全局-全局、全局-局部和局部-局部对齐是分层次进行的。首先，全局对比(GC)

2022-03-23 16:00:44 3654

转载 senet

论文阅读笔记---senet_xys430381_1的博客-CSDN博客概要论文的动机是从特征通道之间的关系入手，希望显式地建模特征通道之间的相互依赖关系。另外，没有引入一个新的空间维度来进行特征通道间的融合，而是采用了一种全新的“特征重标定”策略。SENet的核心思想在于通过网络根据loss去学习特征权重，使得有效的feature map权重大，无效或效果小的feature map权重小的方式训练模型达到更好的结果。具体来说，就是通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这

2022-03-21 11:20:39 141

原创 CVPR2022- Conditional Prompt Learning for Vision-Language Models

视觉语言模型的条件提示学习Nanyang Technological University,南洋理工大学摘要：随着CLIP等功能强大的预训练视觉语言模型的兴起，研究使这些模型适应下游数据集的方法变得至关重要。最近提出的上下文优化（Context Optimization，CoOp）方法将提示学习的概念引入视觉领域，以适应预先训练好的视觉语言模型。具体来说，CoOp将提示中的上下文单词转换为一组可学习的向量，并且只需少量标记图像即可进行学习，与经过密集调整的手动提示相比，可以实现巨大的改进。在我们的研

2022-03-20 16:27:12 6010

转载主成分分析（PCA）与2DPCA

主成分分析（PCA）原理详解_李春春的专栏-CSDN博客_主成分分析看论文是遇到2DPCA方法，然后又去回顾了一下经典的PCA方法，对于PCA这篇博客解读还是比较详细，可以参考。2DPCA方法解读可以参考这篇博客：2DPCA—二维主成分分析详解及编程_一地鸡毛的博客-CSDN博客_二维主成分分析一、为什么提出2DPCA（Why）PCA存在着以下问题： 1、使用PCA进行图像分类识别时，需要将二维矩阵转换为一维向量，使得图像内在的结构信息丢失。 2、使用...

2022-03-13 21:36:45 1131 1

原创 A Cross-Modal Image and Text Retrieval Method Based on Efficient Feature Extraction and Interactive

基于有效特征提取和交互学习的跨模态图像文本检索2022年 Scientific Programming摘要：针对多模态环境的复杂性和现有浅层网络结构无法实现高精度的图文检索，提出一种结合高效特征提取和交互式学习卷积自动编码器CAE的跨模态图像和文本检索方法。首先，改进残差网络卷积核，引入二维主成分分析提取图像特征，通过长短时记忆网络LSTM和词向量提取文本特征，高效提取图特征。基于交互式学习CAE，实现了图像和文本的跨模态检索。其中，图像和文本特征分别输入双模式CAE的两个输入端，通过中间层的...

2022-03-11 22:05:29 4680

原创 Intra-class low-rank regularization for supervised and semi-supervised cross-modal retrieval

原文链接：Intra-class low-rank regularization for supervised and semi-supervised cross-modal retrieval | SpringerLink监督和半监督的跨模态检索类内低秩正则化摘要：跨模态检索旨在跨不同模态检索相关项，例如，使用图像查询来检索相关文本。现有的深度方法在融合多种模态时忽略了模态内和模态间的类内低秩结构，降低了检索性能。本文提出了两种基于类内低秩正则化的深度模型，分别用于监督和半监督跨模态检索. 具体来

2022-03-10 21:58:06 2343

转载矩阵低秩有何意义？

参考博客：https://blog.csdn.net/weixin_41894030/article/details/115699611首先来思考，为什么叫“秩”？举个例子就很容易理解，大家排队买票。如果大家互相不认识，那就会一个排一个，非常有秩序。然而，如果突然来了一个与队伍前面的人认识的人，这个人又不自觉排队，非要插队。那后面的人肯定要有意见了，说你要是这样我前面还有认识的人呢，你插我也插队，这样整个队伍就乱掉了，谁也买不成。通过这个例子，可以得到一下结论：彼此不认识，那就不相关，就有秩

2022-03-09 11:22:34 12892 7

转载 VLP：A survey on vision-language pre-training

中科院自动化所最新《视觉-语言预训练》综述转载来自公众号：机器学习算法与自然语言处理论文标题：VLP: A Survey on Vision-Language Pre-training论文链接：https://www.zhuanzhi.ai/paper/426bf1325e3132ff5a4aa1cc90c27f3c01摘要在过去几年中，预训练模型的出现将计算机视觉（CV）和自然语言处理（NLP）等单模态领域带入了一个新时代。大量工作表明它们有利于下游单模态任务，并可以避免从头开

2022-03-08 20:14:28 941

原创 Dual dadptive alignment and partitioning network for visible and infrared cross-modality person reid

用于可见光和红外跨通道人员再识别的双自适应对准和分割网络(下)摘要回顾：可见光和红外行人重识别(VI-ReID)描述了匹配可见光和红外摄像头捕获到的行人图像的任务，这在夜间监控应用中是一个特殊的挑战。现有的跨模态识别研究主要集中在学习行人全局和共享特征表示，以处理跨模态差异。然而，尤其是当遇到行人检测框不准确而导致的人类外观差异或姿势错位时，行人图像的全局特征并不能有效解决未对齐的图像对问题。为了缓解这些问题，本文提出一种端到端的双重对齐和分割网络，以同时学习行人的全局特征和局部模态不变的特征。首先

2022-03-08 16:34:36 1795 2

原创 Dual dadptive alignment and partitioning network for visible and infrared cross-modality person reid

用于可见光和红外跨通道人员再识别的双自适应对准和分割网络(一)Applied Intelligence-sci3 四川大学摘要：可见光和红外光行人重识别（VI-ReID）描述了匹配可见光和红外摄像头捕获到的行人图像的任务，这在夜间监控应用中是一个特殊的挑战。现有的跨模态识别研究主要集中在学习行人的全局和共享特征表示，以处理跨模态差异。然而，尤其是当遇到行人检测框不准确而导致的人类外观差异或姿势错位时，行人图像的全局特征并不能有效解决未对齐的图像对问题。为了缓解这些问题，本文提出一种端到端的双重对齐和

2022-03-07 22:07:12 1856

原创 Cross-modality person re-identification via channel-based partition network

基于通道划分网络的跨模态行人重识别2022年3区 Applied Intelligence，南京邮电大学摘要：可见-红外交叉通道的身份识别是夜间视频监控系统中的一项重要任务，红外和可见光图像的巨大差异使得这项工作极具挑战性。与传统的个人重识别不同，跨通道任务需要解决类内差异和类间差异。为了解决这种巨大的模态差异问题，本文提出了一种基于通道的分割网络，能够以端到端的方式统一两种模态的特征。首先，为了处理缺乏辨别信息的问题，我们引入新生成的样本来帮助网络提高其学习跨模态特征的能力。其次，在特征层面...

2022-03-04 21:45:45 1163

原创 VSE++: Improving Visual-Semantic Embeddings with Hard Negatives------BMVC 2018

BMVC2018可参考这篇博客：VSE++: Improving Visual-Semantic Embeddings with Hard Negatives_He_YI的博客-CSDN博客原文翻译与理解,如有错误，欢迎指正。摘要：我们提出了一种新的学习视觉语义嵌入的跨模态检索技术。受硬负挖掘、结构预测中硬负的使用以及损失函数排序的启发，我们对用于多模态嵌入的常见损失函数进行了简单的修改。这与微调和使用增强数据相结合，可以显著提高检索性能。我们在MS-COCO和Flickr30K数据集上展

2022-03-02 21:55:41 3125

原创热红外和可见光数据集的具有模态不变特征表示的跨模态图像匹配网络

Cross-Modality Image Matching Network With Modality-Invariant Feature Representation for Airborne-Ground Thermal Infrared and Visible Datasets机载-地面热红外和可见光数据集的具有模态不变特征表示的跨模态图像匹配网络武汉大学 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, VOL. 60, 2022...

2022-03-01 20:33:34 5520 2

原创【Multi-label enhancement based self-supervised deep cross-modal hashing】

多标签增强的自监督深度交叉模态哈希Neurocomputing -2区 2022年西南大学摘要：深度跨模态哈希算法将深度学习和哈希算法集成到跨模态检索中，比传统的跨模态检索方法具有更好的性能。然而，以前的深度跨模态哈希方法大多只利用单个类别标签来计算模态间的语义亲和力，而忽略了多个类别标签的存在，多个标签可以更准确地捕获语义亲和力。此外，几乎所有地跨模态哈希方法都直接使用所有模态来学习哈希函数，但忽略了所有模态中原始实例可能包含噪声的事实。为了避免上述缺陷，本文提出了一种新的基于多标签增强的...

2022-03-01 09:15:12 599

原创【ECCV-Gait recognition from a single image using a phase-aware gait cycle reconstruction network】

基于相位感知步态周期重建网络的单幅图像步态识别ECCV 2020 南京理工大学摘要：我们首次提出了一种仅从单个图像进行步态识别的方法，该方法实现了无延迟的步态识别。为了缓解匹配的一对输入单帧图像之间的相位(步态姿势)差异导致的受试者内部的巨大变化，我们首先使用自动编码器框架从单帧图像重建完整的图像序列步态周期，然后将它们输入先进的步态识别网络进行匹配。具体来说，为输入的单个图像引入相位估计网络，步态周期重建网络利用估计的相位来减轻编码特征对该单个图像相位的依赖。这被称为相位感知步态周期重建器(PA-

2022-02-24 21:56:41 984

转载 FILIP用细粒度的后期交互获得更好的预训练效果

图本检索的Zero-Shot超过CLIP模型！FILIP用细粒度的后期交互获得更好的预训练效率。..._我爱计算机视觉-CSDN博客z转自我爱计算机视觉公转号关注公众号，发现CV技术之美无监督的大规模视觉语言预训练在各种下游任务上显示出不错的进步。现有方法通常通过每个模态的全局特征的相似性来模拟跨模态交互，或者通过视觉和文本token的交叉/自注意力来模拟细粒度交互。然而，交叉/自注意力在训练和推理方面的效率较低。在本文中，作者引入了大规模细粒度交互式语言图像预训练（FILIP），.

2022-02-21 17:11:04 985

原创【multi-taskframework based on feature separation and reconstruction for cross-modal retrieval】

基于特征分离和重建的多任务框架跨模态检索作者单位：哈尔滨工业大学，2022年期刊论文pattern recognition -SCI-1区**摘要**：跨模态检索已经成为计算机视觉和自然语言处理领域的研究热点。学习不同模态特征中间公共空间已经成为主流的方法。这边篇论文中，我们提出了一个新的特征分离和重建的基于公共空间学习的跨模态检索多任务框架，引入特征分离模块以解决不同模态间的信息不对称问题，图像和文本重建模块用以改善特征分离模块的质量。在MS-COCO和Filckr30k数据集上的大量实验证明...

2022-02-21 16:56:37 1500

qq_24876435的博客

原创 Vision GNN:An Image is Worth Graph of Nodes

原创 NFormer: robust person re-identification with neighbor transformer

原创热爱可抵岁月漫长

原创 prompt工程以及在多预训练模型中的应用

转载 VLP: A Survey on Vision-Language Pre-training

原创 Improving description-based person-identification by multi-granularity image-text alignments-2019TIP

转载 senet

原创 CVPR2022- Conditional Prompt Learning for Vision-Language Models

转载主成分分析（PCA）与2DPCA

原创 A Cross-Modal Image and Text Retrieval Method Based on Efficient Feature Extraction and Interactive

原创 Intra-class low-rank regularization for supervised and semi-supervised cross-modal retrieval

转载矩阵低秩有何意义？

转载 VLP：A survey on vision-language pre-training

原创 Dual dadptive alignment and partitioning network for visible and infrared cross-modality person reid

原创 Dual dadptive alignment and partitioning network for visible and infrared cross-modality person reid

原创 Cross-modality person re-identification via channel-based partition network

原创 VSE++: Improving Visual-Semantic Embeddings with Hard Negatives------BMVC 2018

原创热红外和可见光数据集的具有模态不变特征表示的跨模态图像匹配网络

原创【Multi-label enhancement based self-supervised deep cross-modal hashing】

原创【ECCV-Gait recognition from a single image using a phase-aware gait cycle reconstruction network】

转载 FILIP用细粒度的后期交互获得更好的预训练效果

原创【multi-taskframework based on feature separation and reconstruction for cross-modal retrieval】

毕业生信息管理系统

空空如也