Lin大侠-CSDN博客

原创代码小白读MedSAM2代码

Trainer是用来：初始化模型、数据集、优化器、日志等；支持（分布式训练 DDP）；加载和保存训练中断时的；控制。

2025-06-06 15:25:21 980

原创 Cursor远程连接+工具使用

按照这个格式输入，进行连接，例如ssh root@192.168.xx.xx -p 12345。Enter之后会蹦出一个选型，选第一个config。目前功能就介绍这些，其他再学习到的时候再添加。2、Ctrl+Shift+P远程连接。然后点击connect就能连接上了。1、打开Cursor，安装SSH。

2025-05-22 16:26:44 512

原创 SAM 2: Segment Anything in Images and Videos

我们推出了分割一切模型2（SAM 2），这是一个旨在解决图像和视频中可提示的视觉分割问题的基础模型。我们构建了一个数据引擎，通过用户交互来改进模型和数据，从而收集到了迄今为止最大的视频分割数据集。我们的模型采用了简单的Transformer架构，并配备了流式内存，可实现实时视频处理。在我们的数据上训练的SAM 2在广泛的任务中表现出强大的性能。在视频分割方面，与先前的方法相比，我们观察到其精度更高，且所需的交互次数减少了三倍。在图像分割方面，我们的模型比分割一切模型（SAM）精度更高，速度快六倍。

2025-05-13 21:45:42 782

原创 MiM: Mask in Mask Self-SupervisedPre-Training for 3D Medical Image Analysis

Vision Transformer在3D医学图像分析的自监督学习（Self-Supervised Learning，SSL）中展现了卓越的性能。掩码自编码器（Masked Auto-Encoder，MAE）用于特征预训练，可以进一步释放ViT在各种医学视觉任务中的潜力。然而，在本文中，我们提出了一种新颖的3D医学图像掩码内掩码（Mask in Mask，MiM）预训练框架，。我们。此外，我们应用了一种。此外，我们采用了。

2025-05-09 15:21:23 870

原创 PLOT: PROMPT LEARNING WITH OPTIMAL TRANSPORT FOR VISION -LANGUAGE MODELS

随着对 CLIP 等大型视觉 - 语言模型的关注不断增加，人们在构建高效的提示（prompt）方面投入了大量精力。与传统方法仅学习单一提示不同，我们提出学习多个全面的提示，以描述类别的多样化特征，例如内在属性或外在上下文。然而，直接将每个提示与相同的视觉特征进行匹配是存在问题的，因为它会推动提示收敛到同一点。为了解决这一问题，我。具体而言，我们首先用视觉和文本特征集对图像和类别进行建模，然后应用两阶段优化策略来学习提示。在内循环中，我们通过 Sinkhorn 算法优化最优传输距离，以对齐视觉特征和提示；

2025-04-29 15:35:46 1190

原创 A Survey on Self-Supervised Learning: Algorithms,Applications, and Future Trends

如上所述，已经设计了众多用于自监督学习（SSL）的预训练任务，其中一些重要的里程碑变体如图8所示。除了上述提到的SSL预训练任务外，还有一些其他可用的预训练任务，涵盖了多种不同的方法，例如相对patch位置、噪声预测、特征聚类、跨通道预测以及结合不同线索等。Kolesnikov等人对之前提出的SSL预训练任务进行了全面的研究，得出了重要的见解。此外，Krähenbühl等人提出了预训练任务的一种替代方法，并展示了从电子游戏中获取数据的便利性。人们观察到，基于上下文的方法由于性能较差，其适用性受到限制。

2025-04-21 17:06:51 660

原创 Disruptive Autoencoders: Leveraging Low-levelfeatures for 3D Medical Image Pre-training

利用在大规模数据集（如ImageNet）上进行预训练的能力，为计算机视觉中以表示学习为驱动力的解决方案的进步形成了一个基础构建块。医学图像与自然图像本质上不同，因为它们以多种模态（CT、MR、PET、超声等）的形式获取，并包含组织、病变、器官等细粒度信息。医学图像的这些特性需要特别关注学习能够代表局部上下文的特征。在这项工作中，我们专注于为3D放射学图像设计一个有效的预训练框架。。为此，

2025-04-18 14:48:46 885

原创 Framework for Self-supervised Pre-training inMedical Image Analysis

摘要—近期在计算机视觉领域自监督学习（SSL）的进展，其目标是通过。然而，保留的高级语义不包含足够的局部信息，这在医学图像分析中至关重要（例如，基于图像的诊断和肿瘤分割）。为了缓解比较性 SSL 的局部性问题，我们提出将像素恢复任务纳入其中，以明确地将更多像素级信息编码到高级语义中。我们还解决了尺度信息的保留问题，这是辅助图像理解的有力工具，但在 SSL 中尚未引起太多关注。。具体来说，我们在金字塔中进行多尺度像素恢复和相似特征比较。此外，我们提出。

2025-04-18 10:29:08 881

原创 Scaling Language-Free Visual RepresentationLearning

视觉自监督学习（SSL）在多模态场景（如视觉问答，VQA）中目前的表现不如对比语言-图像预训练（CLIP）。这种多模态性能差距通常被认为是因为语言监督引入了语义信息，尽管视觉 SSL 和 CLIP 模型通常在不同的数据集上进行训练。在本研究中，我们提出了一个问题：“视觉自监督方法是否因为缺乏语言监督，或者是因为训练数据的差异，而落后于 CLIP？”为了研究这个问题，我们在相同的 MetaCLIP 数据集上训练了视觉 SSL 和 CLIP 模型，并利用 VQA 作为视觉编码器的多样化测试平台。

2025-04-11 14:10:47 606

原创 EfficientSAM: Leveraged Masked Image Pretraining for Efficient SegmentAnything

Segment Anything Model（SAM）作为一种强大的工具，已被广泛应用于众多视觉任务。其中，一个关键的推动因素是其基于庞大的高质量SA-1B数据集训练出的超大型Transformer模型，该模型在零样本迁移和高度通用性方面表现出色。然而，。为了解决这一限制，我们提出了EfficientSAMs，这是一种我们的想法是基于利用掩码图像预训练（SAMI），它通过学习从SAM图像编码器中重建特征来实现有效的视觉表示学习。

2025-04-09 14:38:08 1054

原创 Segment Anything未完待续

其掩码数量比任何现有的分割数据集多 400 倍[66, 44, 117, 60]，并且正如我们广泛验证的那样，这些掩码具有高质量和多样性。除了用于训练 SAM 以使其具有鲁棒性和通用性之外，我们希望 SA-1B 能够成为旨在构建新的基础模型的研究的宝贵资源。

2025-04-08 14:05:29 834

原创 U-Net: Convolutional Networks for BiomedicalImage Segmentation

Unet整篇论文翻译与理解

2025-04-04 14:52:37 1245

原创 UNetFormer: A Uniﬁed Vision TransformerModel and Pre-Training Framework for 3DMedical Image Segmen

视觉transformer（ViT）最近因其出色的建模能力而变得流行，特别是在捕获远程信息方面，以及数据集和模型尺寸的可扩展性，这导致了各种计算机视觉和医学图像分析任务中最先进的性能。在这项工作中，我们引入了一个由两种架构组成的统一框架，称为UNetFormer，具有基于3D Swin Transformer的编码器和卷积神经网络（CNN）以及基于transformer的解码器。。所提出的体系结构的设计允许在精度和计算成本之间满足广泛的权衡需求。此外，我们提出了一种。

2025-04-03 15:29:07 1076

原创 REVISITING MAE PRE-TRAINING FOR 3D MEDICALIMAGE SEGMENTATION

自我监督学习（SSL）提供了一个令人兴奋的机会，可以释放大量尚未开发的临床数据集的潜力，为各种下游应用程序提供标签数据的稀缺。虽然SSL已经彻底改变了自然语言处理和计算机视觉等领域，但它们在3D医学图像计算中的应用受到三个关键陷阱的限制：预训练数据集规模小，3D医学图像分析的架构不足，以及评估实践不足。我们通过 i)利用44k 3D脑MRI体积的大规模数据集来解决这些问题。ii)在最先进的nnU-Net框架内使用残差编码器U-Net架构。

2025-03-28 16:49:42 1301

原创自监督学习

其中,生成性模型通过编码器和解码器的重建损失来训练模型,对比模型通过对比两个输入的相似度来训练模型,生成对抗模型则通过生成器和辨别器的对抗来训练模型。假如x和y是相同图片的不同的增强方式，那么判别器最终就要认为这两张照片是相同的照片，如果x和y是不同的两张照片，那么判别器就要判别他俩是不同的图片。：判别器的作用是区分生成器生成的数据和真实数据。two stage 训练，一个是产生伪标签的过程，一个是对Student-Teacher训练的过程。没有标签，通过学习输入和输出是一致的，学习到数据内部的特征。

2025-03-27 11:44:04 365

原创 POLSAR IMAGE CLASSIFICATION USING ATTENTION BASED SHALLOWTO DEEPCONVOLUTIONAL NEURAL NETWORK

本文提出了一个新型的多分支特征融合网络，用于POLSAR图像分类和解释。它是使用复杂值卷积神经网络（CV-CNN）构建的。所提出的方法利用每个分支在每个分支上提取极化特征来达到高分类精度。此外，在模型的架构中还引入了压缩和激发（SE）。SE Block几乎没有额外的计算成本来改善信道相互依赖性。使用Flevoland基准数据集对提出的方法进行了测试和评估。实验证明了根据KAPPA系数（K），总体准确性（OA）和平均准确性（AA）指标，对POLSAR图像分类的拟议浅表对POLSAR图像分类的浅层浅层的有效性。

2025-03-24 15:45:17 871

原创 Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

提示工程是指设计和优化输入给预训练语言模型的文本提示（Prompt）的过程，旨在引导模型生成更符合用户需求、高质量且准确的输出。简单来说，就是通过精心构造输入的文本信息，让语言模型按照我们期望的方式进行响应。

2025-03-02 20:42:42 829

原创训练的时候图片大小不同

具体思想如下，取一张图片的最长边，做一个mask矩形，然后将原图贴到mask矩形上就可以，就相当于是一个正方形，然后将正方形进行一个等比的resize，这样就不会变形。直接缩放图片会变形，需要进行一个等比缩放。

2025-02-27 11:17:46 114

原创 nnU-Net: a self-configuring method for deeplearning-based biomedical image segmentation

生物医学成像是科学发现的驱动力，也是医疗保健的核心组成部分，并受到深度学习领域的刺激.虽然语义分割算法在许多应用中支持图像分析和量化，但相应的专业解决方案的设计并非易事，并且高度依赖于数据集属性和硬件条件。我们开发了 nnU-Net，这是一种基于深度学习的分割方法，可以自动配置自身，包括任何新任务的预处理、网络架构、训练和后处理。在此过程中的关键设计选择被建模为一组固定参数、相互依赖的规则和经验决策。无需人工干预，nnU-Net 超越了大多数现有方法，包括针对国际生物医学细分比赛中使用的 23 个公共数据集

2025-02-26 15:44:46 955

原创 nnUNetv2用自己的数据集训练推理

nnUNet的环境配置、训练推理等流程，不懂就问，问了就答

2025-02-26 15:21:01 1458 8

原创 MCANet: A joint semantic segmentation framework of optical and SAR images for land use classificatio

深度卷积神经网络（DCNN）是对高分辨率遥感影像进行土地利用分类的最有效方法之一。光学与合成孔径雷达（SAR）影像融合的土地利用分类具有广阔的应用前景，但相关研究较少。在本研究中，我们开发了第一个也是最大的联合光学和 SAR 土地利用分类数据集 WHU-OPT-SAR，覆盖面积约为 50,000 km2，并设计了一个多模态交叉注意力网络（MCANet）。CANet 包括。

2025-02-19 11:04:12 940

原创 OpenEarthMap-SAR:A Benchmark Synthetic Aperture Radar Dataset forGlobal High-Resolution Land Cover

高分辨率土地覆被制图在应对广泛的全球挑战方面发挥着至关重要的作用，包括城市规划、环境监测、灾害响应和可持续发展。然而，由于地理空间数据固有的复杂性（例如不同的地形、不同的传感器模式和大气条件），创建准确的大规模土地覆被数据集仍然是一项重大挑战。合成孔径雷达（SAR）影像能够在全天候、昼夜条件下穿透云层并捕获数据，为土地覆盖制图提供了独特的优势。尽管具有这些优势，但缺乏为 SAR 影像量身定制的基准数据集限制了专门为这种数据模态设计的稳健模型的开发。

2025-02-10 19:16:51 1066

原创 TransVG++: End-to-End Visual Grounding WithLanguage Conditioned Vision Transformer

首先语言tokens会被送入到FFN得到token prompts，然后将它与REG和vision tokens拼接到一起作为MHSA的输入，经过MHSA之后会被分成两组，一组是vision tokens和REG，另一组是prompt tokens，prompt tokens会被丢掉，vision tokens和REG会被再次送入到FFN中去，获取下一层的输入。

2024-12-12 17:28:02 995

原创 Shifting More Attention to Visual Backbone: Query-modulated RefinementNetworks for End-to-End Visua

Visual grounding着重于在视觉和自然语言之间建立细粒度的一致性，现有方法使用预先训练的与查询无关的视觉主干来独立提取视觉特征映射，而不考虑查询信息。本文认为从视觉主干中提取的视觉特征与多模态推理真正需要的特征是不一致的。一个原因是与训练任务和visual grounding任务之间是由差距的，由于骨干网络和query无关，很难完全避免不一致问题。本文提出了一种基于和的，通过调整视觉主干中的中间特征来解决不一致问题。

2024-12-11 14:27:10 1058

原创 DETR一文理解

（1）CNN提取视觉特征，拉直（2）transformer encoder的作用：进一步学习全局信息，为decoder出预测框做铺垫，也就是说图片上每一个像素点（特征）都会和其他点特征有交互，对于同一个物体，就应该只出一个框，而不是出很多框，全局特征有利于移除冗余的框。（3）Transformer decoder出预测框，结合object query，限定要出多少个框，query和特征不做自主一操作，得出最终的框。

2024-12-07 21:34:12 1052

原创 VLTVG代码复现并讲解

encoder中还有前馈神经网络，通常是由两个先行层和一个激活层组成，第一个linear通常是将hidden_dim(256较低)转成dim_feedforward（2048较高）输入图像首先经过卷积网络，然后再经过transformer encoders进行编码，得到视觉特征硬上映射Fv，Fv中包括图像中对象实例地特征，但是没有先验的语言文本信息，#输入的单词（或其他元素）会通过一个嵌入层转换为一个固定维度的向量比如512，如果多头注意的话，每个头处理的就是hidden_dim/n_heads。

2024-12-04 22:08:05 412

原创李沐--感知机

多层感知机。

2024-12-02 10:26:31 101

原创 Improving Visual Grounding with Visual-Linguistic Verificationand Iterative Reasoning

Abstract之前的Visual grounding任务方法主要是通过生成一些候选框或者anchors来进行的，基于这些候选框或锚点提取图像的视觉特征，最后将这些视觉特征与文本描述的嵌入向量（text embeddings）进行融合，以找到文本描述对应的图像区域。但是缺点就是在生成候选框的时候没有充分结合文本上下文信息。本文通过建立基于Transformer上的框架，具体来说，（1）开发了一个视觉语言验证模块，将视觉特征集中在与文本描述相关的区域，同时抑制不相关的区域。

2024-12-02 10:25:48 950

原创 Adversarial Learning forSemi-Supervised Semantic Segmentation

本文提出了一种基于对抗网络的半监督语义分割方法，设计了一个全卷积判别器来判断预测值和GT，而且可以通过将对抗损失和交叉熵损失相结合来提高准确率，判别器分析无标签图像的初步预测，识别出其中比较确定或较为可靠的部分，并将这些区域作为监督信号，进一步指导模型进行学习。现有的一些方法可能采用弱标签（如图像级标签或者不完全标注的信息）来进行训练，而这篇方法则不同，它使用无标签图像，通过判别器识别可信区域来帮助模型训练，进一步提升了无标签数据的使用效率。

2024-11-30 16:10:01 1224

原创 MDETR - Modulated Detection for End-to-End Multi-Modal Understanding

（如视觉问答系统或图像与文本之间的匹配系统）通常依赖于一个，用于从图像中提取感兴趣的区域。这些物体检测器通常是作为“黑盒”使用的，也就是说，它们在被训练时独立于下游任务，并且是基于一个固定的物体和属性词汇表进行训练的。限制了这些检测器只能识别训练时所见的物体类别，因此当遇到（即，文本中提到的物体类别或者描述是从未在训练集中出现过的）时，系统就很难有效地理解和检测这些概念。

2024-11-26 22:25:34 633

原创 Multi-task Collaborative Network for Joint Referring ExpressionComprehension and Segmentation

此外，我们通过一致性能量最大化（CEM）和自适应软非定位抑制（ASNLS）两种创新设计解决了多任务设置中的关键挑战，即预测冲突。具体来说，CEM使REC和RES通过最大化两个任务之间的一致性能量来关注相似的视觉区域。ASNLS基于rec的预测抑制了RES中不相关区域的响应。

2024-11-24 14:04:04 809

原创 Referring Transformer: A One-step Approach toMulti-task Visual Grounding

通常通过标记区域的聚类获得，并且还限制了上下文化基础决策的能力，因为每个查询短语都是独立有效地处理的。最后，文献很少关注REC和RES任务之间的杠杆关系。本文的贡献：(1)提出了一种简单通用的基于一阶段transformer的参考表达式理解和分割体系结构。该模型的核心是一种新颖的transformer解码器，它利用上下文化的短语查询，并能够直接将这些查询解码成相应的图像区域和片段，并受到上下文化图像嵌入的约束；

2024-11-20 15:45:44 1026

原创 SegFormer: Simple and Efﬁcient Design for SemanticSegmentation with Transformers

提出了一个简单，高效而强大的语义分割框架SegFormer，它将transformer与轻量级多层感知器（MLP）解码器结合在一起。SegFormer1)SegFormer包括一个新颖的分层结构的变压器编码器，输出多尺度特征。它不需要位置编码，从而避免了当测试分辨率与训练分辨率不同时插入位置编码导致性能下降的问题。2) SegFormer避免复杂的解码器。所提出的MLP解码器聚合了来自不同层的信息，从而结合了局部注意和全局注意来呈现强大的表示。我们表明，这种简单和轻量级的设计是有效分割变压器的关键。

2024-11-20 09:38:51 1340

原创 Bi-directional Cross-Modality FeaturePropagation with Separation-and-AggregationGate for RGB-D Sem

深度信息可以为RGB图像提供几何信息，但是现有的工作都认为深度信息的测量是准确的，将其作为特特征与RGB信息进行特征融合，但是在实际情况中，深度信息通常是有噪声的，可能会随着网络的深入反而降低准确性。在本文中，提出了一种统一、高效的跨模态引导编码器，不仅可以有效地重新校准RGB特征响应，而且可以，并将两个重新校准的表示交替汇总。所提出的体系结构的关键是同时，引入双向多步传播策略，一方面有助于两种模式之间的信息传播和融合，另一方面在长期传播过程中保持其特异性。

2024-11-12 15:17:44 873

原创 Malleable 2.5D Convolution: Learning ReceptiveFields along the Depth-axis for RGB-D SceneParsing

深度数据提供了几何信息，在RGB-D场景解析任务中能够带来进展。近年来，一些研究提出了RGB-D卷积算子，沿深度轴构建感受野，以处理像素间的3D邻域关系。然而，这些方法通过超参数预定义深度感受野，因此依赖于参数的选择。在本文中，我们提出了一种新的算子，称为可调2.5D卷积，用于学习沿深度轴的感受野。可调2.5D卷积包含一个或多个2D卷积核。我们的方法根据像素的相对深度差异，将每个像素分配给其中一个卷积核或不分配任何卷积核，该分配过程被公式化为可微的形式，以便通过梯度下降进行学习。

2024-11-10 10:49:55 804

原创 RRSIS: Referring Remote SensingImage Segmentation

从遥感图像中定位目标在实际应用中有很大的用处。参考图像分割的目的是分割出给定表达所指向的对象，这在自然图像中得到了广泛的研究。我们为这项任务创建了一个名为RefSegRS的新数据集，使我们能够评估不同的方法。

2024-11-06 17:17:04 1202

原创 LAVT: Language-Aware Vision Transformer forReferring Image Segmentation

参考图像分割是一项基本的，旨在从图像中分割出由自然语言表达所引用的对象。这项任务背后的关键挑战之一是利用引用表达式来突出显示图像中的相关位置。解决这个问题的一个范例是利用一个强大的视觉语言（“跨模态”）解码器来融合从视觉编码器和语言编码器中独立提取的特征。最近的方法通过利用Transformer作为跨模态解码器在这个范例中取得了显著的进步，同时Transformer在许多其他视觉语言任务中取得了压倒性的成功。在这项工作中，我们采用了一种不同的方法，表明可以。

2024-11-06 14:13:38 1073

原创 Transformer中的Encoder

Self-Attention在计算的时候会考虑完整地input，但是masked self-Attention只会考虑自身及其左边的input。展示一下Cross Attention模块具体是怎么执行的。

2024-10-30 19:38:53 253

原创 TransVG: End-to-End Visual Grounding with Transformers

视觉基础（也称为参考表达理解、短语定位和自然语言对象检索）。该技术的发展为人类的自然语言表达和物理世界的视觉组件提供了一个智能接口，具有很大的潜力。它在第一阶段使用一个多层感知器（MLP）来衡量区域提议和语言描述嵌入之间的相似性。：它通过直接连接（concatenation）的方式将语言向量编码到视觉特征中。在FAOA中，语言描述首先被编码成一个向量，然后这个向量与图像的视觉特征直接连接起来，形成一个融合的特征表示直接输出4-dim坐标来grounding object，而不是基于一组候选框进行预测。

2024-10-30 10:27:06 809

原创 A Simple Semi-Supervised Learning Framework for Object Detection

如果对一个未标记的数据应用实际的扰动, 其预测结果不应该发生显著变化, 也就是输出具有一致性，通过在未标记数据上构造添加扰动后的预测结果 y~ 与正常预测结果 y之间的无监督正则化损失项, 提高模型的泛化能力。是首先为未标记的数据生成人工标签，并训练模型在为未标记的数据提供保持语义的随机增强时预测这些人工标签。本文的工作：利用深度SSL在图像分类方面的经验来解决SSL用于目标检测的问题。提出了一个用于对象检测的SSL框架，该框架结合了自我训练（通过伪标签）和基于强数据增强的一致性正则化。受。

2024-10-25 21:31:24 1237

空空如也

空空如也