JJxiao24-CSDN博客

原创 Cross-Modality Person Re-identification with Memory-Based Contrastive Embedding

由于模态之间存在差异，VI-ReID 变得更具挑战性，即阶层间的混乱（模态之间）和阶层内的变化（如姿势、视点、光照、背景聚类、遮挡等)。作者提出基于聚合记忆的跨模态深度度量学习框架，该框架受益于越来越多的学习模态感知和模态不可知的质心代理，用于聚类对比和互信息学习。此外，为了抑制模态差异，同时利用历史和最新学习的聚类代理来增强跨模态关联。这种训练机制通过增加学习到的聚类代理的多样性来获得硬正参考，最终实现跨模态图像特征之间更强的“拉紧”效果。

2024-08-07 15:09:38 1094

原创跨模态、多模态、多任务之间的区别与联系

跨模态是指从一种模态的数据中学习，并将其知识应用到另一种模态的数据上。跨模态学习可以利用不同模态数据之间的隐含关系，从而提高模型的泛化能力。从图像数据学习，用于文本生成。从文本数据学习，用于图像生成。从语音数据学习，用于唇语识别。跨模态、多模态和多任务是人工智能领域中相互关联的概念，它们可以相互促进，共同推动人工智能技术的进步。

2024-04-22 13:42:21 3285 3

原创深度学习常见回归分支算法逐步分析，各种回归之间的优缺点，适用场景，举例演示

回归的概念：回归算法是一种用于预测连续数值输出的监督学习算法，可以根据输入特征预测一个或多个目标变量。它有多个分支，每个分支都有其独特的优缺点。

2023-12-02 22:21:12 4704

原创深度学习今年来经典模型优缺点总结，包括卷积、循环卷积、Transformer、LSTM、GANs等

最后，再介绍一种人工神经网络：前馈神经网络（Feedforward Neural Networks，FNNs）。将一种语言的文本翻译为另一种语言。适用场景：用于序列数据处理，与 LSTM 类似。将图像分类为不同的物体或场景。案例：股票价格预测。适用场景：用于自然语言处理、机器翻译等。将口头语言转换为文本。适用场景：用于生成图像、音频、文本等。将图像分为不同的类别。适用场景：序列建模、自然语言处理等。适用场景：处理长序列和时间序列数据。适用场景：图像分类、目标检测等。适用场景：用于分类和回归任务。

2023-12-01 15:58:51 3199

原创 ground truth 在深度学习任务中代表的是什么意思？

总的来说，“ground truth” 是模型训练和评估过程中的基准标准，也是评估模型性能和准确度的关键指标。通过它，可以直接间接评估模型的性能。

2023-11-29 09:58:23 13146

原创解决 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized的问题

意思是要初始化一个libiomp5md.dll文件，但是发现这个文件已被初始化了。

2023-11-28 15:02:21 2958

原创深度学习常见激活函数：ReLU，sigmoid，Tanh，softmax，Leaky ReLU，PReLU，ELU整理集合，应用场景选择

近年来常用激活函数集合，拒绝知识角落盲点

2023-11-22 11:18:18 3999

原创 LanguageBind: extending video-language pretraining to n-modality by languagebased semantic alignment

的多模态预训练方法，但它是通过间接对齐到图像的方式实现的，不适用于与语言模态的对齐，可能导致性能下降。（1）提出了基于语言的多模态预训练框架 LanguageBind，在预训练过程中通过对比学习将其他模态与语言模态对齐，并且这些模态在一个共享的嵌入空间内统一。的模态不可知编码器，保持权重矩阵 W0 不变，同时学习一个新的权重矩阵 BA。第一步是生成搜索词数据库，设计一种独特的搜索词获取策略，利用来自各种视觉任务数据集的文本数据，包括标签和标题，以构建具有丰富视觉概念和多样性的视频数据集。

2023-11-15 16:55:14 1218

原创清华镜像源地址，适用于pip下载速度过慢从而导致下载失败的问题

注意，如果你开了科学上网的梯子，记得关掉，否则会出现proxy error报错，清华镜像源和梯子不能同时开！代表的是你将要下载的包名称。

2023-11-14 14:36:28 1434

原创 Progressive Attribute Embedding for Accurate Cross-modality Person Re-ID—效果可以说是领域最强的一篇文章

属性加图像信息进行融合提取特征

2023-10-24 22:03:56 419

原创 OneDrive打不开了，怎么办？使用管理员身份也无效，分享解决办法如下

one 软件打不开的解决办法

2023-10-18 22:05:59 12787

原创 Xshell7试用期过了，打开就显示评估期已过，想继续或者不能删除怎么办？详细说明解决步骤

使用Xshell软件遇到的的一些问题

2023-10-17 21:48:42 15425 3

原创 Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Bench

论文学习

2023-10-17 15:31:17 723 3

原创 Linux 发展史

介绍一下 linux 的发展历史

2023-10-17 11:04:18 294

原创 Self-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-ID—通用范式

作者提出了一种自监督的预训练方案，模态感知多粒度学习（MMGL），它仅在多模态 ReID 数据集上从头开始直接训练模型，但在不使用任何外部数据或复杂的调整技巧的情况下，与 ImageNet 预训练相比，可以获得有竞争力的结果。来表示随机混洗的图像补丁序列的排序向量，该模块旨在学习用置换矩阵 P 重建其原始序列 O ，在数学上，P 属于 0-1 双随机矩阵的集合，其中第 i 行和第 j 列中的每个非零元素都表明当前第 i 个补丁应该分配到序列的第 j 位（可以理解为 P 是用来进行转置的矩阵）。

2023-08-20 10:52:18 312

原创 Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-id

在本文中，我们提出了一种新的基于深度学习的框架PMT，该框架通过充分挖掘可靠的模态变量特征，有效地提高了VI ReID的性能。以灰度图像作为辅助模态，我们的框架通过渐进学习策略缓解了RGB-IR模态之间的巨大差距。同时，我们提出的MSEL和DCL可以有效地提取更可靠和更具判别力的特征，带来更强的性能和鲁棒性。此外，所提出的方法具有很好的推广性。通过将我们的方法应用于基于CNN的主干网，它们也可以带来显著的性能改进。在两个公共VI ReID基准上的实验结果验证了我们提出的框架的有效性。

2023-07-11 21:47:36 1076