自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(79)
  • 收藏
  • 关注

原创 REVISITING MAE PRE-TRAINING FOR 3D MEDICALIMAGE SEGMENTATION

自我监督学习(SSL)提供了一个令人兴奋的机会,可以释放大量尚未开发的临床数据集的潜力,为各种下游应用程序提供标签数据的稀缺。虽然SSL已经彻底改变了自然语言处理和计算机视觉等领域,但它们在3D医学图像计算中的应用受到三个关键陷阱的限制:预训练数据集规模小,3D医学图像分析的架构不足,以及评估实践不足。我们通过 i)利用44k 3D脑MRI体积的大规模数据集来解决这些问题。ii)在最先进的nnU-Net框架内使用残差编码器U-Net架构。

2025-03-28 16:49:42 1144

原创 自监督学习

其中,生成性模型通过编码器和解码器的重建损失来训练模型,对比模型通过对比两个输入的相似度来训练模型,生成对抗模型则通过生成器和辨别器的对抗来训练模型。假如x和y是相同图片的不同的增强方式,那么判别器最终就要认为这两张照片是相同的照片,如果x和y是不同的两张照片,那么判别器就要判别他俩是不同的图片。:判别器的作用是区分生成器生成的数据和真实数据。two stage 训练,一个是产生伪标签的过程,一个是对Student-Teacher训练的过程。没有标签,通过学习输入和输出是一致的,学习到数据内部的特征。

2025-03-27 11:44:04 313

原创 POLSAR IMAGE CLASSIFICATION USING ATTENTION BASED SHALLOWTO DEEPCONVOLUTIONAL NEURAL NETWORK

本文提出了一个新型的多分支特征融合网络,用于POLSAR图像分类和解释。它是使用复杂值卷积神经网络(CV-CNN)构建的。所提出的方法利用每个分支在每个分支上提取极化特征来达到高分类精度。此外,在模型的架构中还引入了压缩和激发(SE)。SE Block几乎没有额外的计算成本来改善信道相互依赖性。使用Flevoland基准数据集对提出的方法进行了测试和评估。实验证明了根据KAPPA系数(K),总体准确性(OA)和平均准确性(AA)指标,对POLSAR图像分类的拟议浅表对POLSAR图像分类的浅层浅层的有效性。

2025-03-24 15:45:17 835

原创 Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

提示工程是指设计和优化输入给预训练语言模型的文本提示(Prompt)的过程,旨在引导模型生成更符合用户需求、高质量且准确的输出。简单来说,就是通过精心构造输入的文本信息,让语言模型按照我们期望的方式进行响应。

2025-03-02 20:42:42 782

原创 训练的时候图片大小不同

具体思想如下,取一张图片的最长边,做一个mask矩形,然后将原图贴到mask矩形上就可以,就相当于是一个正方形,然后将正方形进行一个等比的resize,这样就不会变形。直接缩放图片会变形,需要进行一个等比缩放。

2025-02-27 11:17:46 80

原创 nnU-Net: a self-configuring method for deeplearning-based biomedical image segmentation

生物医学成像是科学发现的驱动力,也是医疗保健的核心组成部分,并受到深度学习领域的刺激.虽然语义分割算法在许多应用中支持图像分析和量化,但相应的专业解决方案的设计并非易事,并且高度依赖于数据集属性和硬件条件。我们开发了 nnU-Net,这是一种基于深度学习的分割方法,可以自动配置自身,包括任何新任务的预处理、网络架构、训练和后处理。在此过程中的关键设计选择被建模为一组固定参数、相互依赖的规则和经验决策。无需人工干预,nnU-Net 超越了大多数现有方法,包括针对国际生物医学细分比赛中使用的 23 个公共数据集

2025-02-26 15:44:46 809

原创 nnUNetv2用自己的数据集训练推理

nnUNet的环境配置、训练推理等流程,不懂就问,问了就答

2025-02-26 15:21:01 834 2

原创 MCANet: A joint semantic segmentation framework of optical and SAR images for land use classificatio

深度卷积神经网络 (DCNN) 是对高分辨率遥感影像进行土地利用分类的最有效方法之一。光学与合成孔径雷达(SAR)影像融合的土地利用分类具有广阔的应用前景,但相关研究较少。在本研究中,我们开发了第一个也是最大的联合光学和 SAR 土地利用分类数据集 WHU-OPT-SAR,覆盖面积约为 50,000 km2,并设计了一个多模态交叉注意力网络 (MCANet)。CANet 包括。

2025-02-19 11:04:12 703

原创 OpenEarthMap-SAR:A Benchmark Synthetic Aperture Radar Dataset forGlobal High-Resolution Land Cover

高分辨率土地覆被制图在应对广泛的全球挑战方面发挥着至关重要的作用,包括城市规划、环境监测、灾害响应和可持续发展。然而,由于地理空间数据固有的复杂性(例如不同的地形、不同的传感器模式和大气条件),创建准确的大规模土地覆被数据集仍然是一项重大挑战。合成孔径雷达 (SAR) 影像能够在全天候、昼夜条件下穿透云层并捕获数据,为土地覆盖制图提供了独特的优势。尽管具有这些优势,但缺乏为 SAR 影像量身定制的基准数据集限制了专门为这种数据模态设计的稳健模型的开发。

2025-02-10 19:16:51 1007

原创 TransVG++: End-to-End Visual Grounding WithLanguage Conditioned Vision Transformer

首先语言tokens会被送入到FFN得到token prompts,然后将它与REG和vision tokens拼接到一起作为MHSA的输入,经过MHSA之后会被分成两组,一组是vision tokens和REG,另一组是prompt tokens,prompt tokens会被丢掉,vision tokens和REG会被再次送入到FFN中去,获取下一层的输入。

2024-12-12 17:28:02 968

原创 Shifting More Attention to Visual Backbone: Query-modulated RefinementNetworks for End-to-End Visua

Visual grounding着重于在视觉和自然语言之间建立细粒度的一致性, 现有方法使用预先训练的与查询无关的视觉主干来独立提取视觉特征映射,而不考虑查询信息。本文认为从视觉主干中提取的视觉特征与多模态推理真正需要的特征是不一致的。一个原因是与训练任务和visual grounding任务之间是由差距的,由于骨干网络和query无关,很难完全避免不一致问题。本文提出了一种基于和的,通过调整视觉主干中的中间特征来解决不一致问题。

2024-12-11 14:27:10 1029

原创 DETR一文理解

(1)CNN提取视觉特征,拉直(2)transformer encoder的作用:进一步学习全局信息,为decoder出预测框做铺垫,也就是说图片上每一个像素点(特征)都会和其他点特征有交互,对于同一个物体,就应该只出一个框,而不是出很多框,全局特征有利于移除冗余的框。(3)Transformer decoder出预测框,结合object query,限定要出多少个框,query和特征不做自主一操作,得出最终的框。

2024-12-07 21:34:12 1027

原创 VLTVG代码复现并讲解

encoder中还有前馈神经网络,通常是由两个先行层和一个激活层组成,第一个linear通常是将hidden_dim(256较低)转成dim_feedforward(2048较高)输入图像首先经过卷积网络,然后再经过transformer encoders进行编码,得到视觉特征硬上映射Fv,Fv中包括图像中对象实例地特征,但是没有先验的语言文本信息,#输入的单词(或其他元素)会通过一个嵌入层转换为一个固定维度的向量比如512,如果多头注意的话,每个头处理的就是hidden_dim/n_heads。

2024-12-04 22:08:05 382

原创 李沐--感知机

多层感知机。

2024-12-02 10:26:31 88

原创 Improving Visual Grounding with Visual-Linguistic Verificationand Iterative Reasoning

Abstract之前的Visual grounding任务方法主要是通过生成一些候选框或者anchors来进行的,基于这些候选框或锚点提取图像的视觉特征,最后将这些视觉特征与文本描述的嵌入向量(text embeddings)进行融合,以找到文本描述对应的图像区域。但是缺点就是在生成候选框的时候没有充分结合文本上下文信息。本文通过建立基于Transformer上的框架,具体来说,(1)开发了一个视觉语言验证模块,将视觉特征集中在与文本描述相关的区域,同时抑制不相关的区域。

2024-12-02 10:25:48 908

原创 Adversarial Learning forSemi-Supervised Semantic Segmentation

本文提出了一种基于对抗网络的半监督语义分割方法,设计了一个全卷积判别器来判断预测值和GT,而且可以通过将对抗损失和交叉熵损失相结合来提高准确率,判别器分析无标签图像的初步预测,识别出其中比较确定或较为可靠的部分,并将这些区域作为监督信号,进一步指导模型进行学习。现有的一些方法可能采用弱标签(如图像级标签或者不完全标注的信息)来进行训练,而这篇方法则不同,它使用无标签图像,通过判别器识别可信区域来帮助模型训练,进一步提升了无标签数据的使用效率。

2024-11-30 16:10:01 1194

原创 MDETR - Modulated Detection for End-to-End Multi-Modal Understanding

(如视觉问答系统或图像与文本之间的匹配系统)通常依赖于一个,用于从图像中提取感兴趣的区域。这些物体检测器通常是作为“黑盒”使用的,也就是说,它们在被训练时独立于下游任务,并且是基于一个固定的物体和属性词汇表进行训练的。限制了这些检测器只能识别训练时所见的物体类别,因此当遇到(即,文本中提到的物体类别或者描述是从未在训练集中出现过的)时,系统就很难有效地理解和检测这些概念。

2024-11-26 22:25:34 592

原创 Multi-task Collaborative Network for Joint Referring ExpressionComprehension and Segmentation

此外,我们通过一致性能量最大化(CEM)和自适应软非定位抑制(ASNLS)两种创新设计解决了多任务设置中的关键挑战,即预测冲突。具体来说,CEM使REC和RES通过最大化两个任务之间的一致性能量来关注相似的视觉区域。ASNLS基于rec的预测抑制了RES中不相关区域的响应。

2024-11-24 14:04:04 774

原创 Referring Transformer: A One-step Approach toMulti-task Visual Grounding

通常通过标记区域的聚类获得,并且还限制了上下文化基础决策的能力,因为每个查询短语都是独立有效地处理的。最后,文献很少关注REC和RES任务之间的杠杆关系。本文的贡献:(1)提出了一种简单通用的基于一阶段transformer的参考表达式理解和分割体系结构。该模型的核心是一种新颖的transformer解码器,它利用上下文化的短语查询,并能够直接将这些查询解码成相应的图像区域和片段,并受到上下文化图像嵌入的约束;

2024-11-20 15:45:44 980

原创 SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers

提出了一个简单,高效而强大的语义分割框架SegFormer,它将transformer与轻量级多层感知器(MLP)解码器结合在一起。SegFormer1)SegFormer包括一个新颖的分层结构的变压器编码器,输出多尺度特征。它不需要位置编码,从而避免了当测试分辨率与训练分辨率不同时插入位置编码导致性能下降的问题。2) SegFormer避免复杂的解码器。所提出的MLP解码器聚合了来自不同层的信息,从而结合了局部注意和全局注意来呈现强大的表示。我们表明,这种简单和轻量级的设计是有效分割变压器的关键。

2024-11-20 09:38:51 1044

原创 Bi-directional Cross-Modality FeaturePropagation with Separation-and-AggregationGate for RGB-D Sem

深度信息可以为RGB图像提供几何信息,但是现有的工作都认为深度信息的测量是准确的,将其作为特特征与RGB信息进行特征融合,但是在实际情况中,深度信息通常是有噪声的,可能会随着网络的深入反而降低准确性。在本文中,提出了一种统一、高效的跨模态引导编码器,不仅可以有效地重新校准RGB特征响应,而且可以,并将两个重新校准的表示交替汇总。所提出的体系结构的关键是同时,引入双向多步传播策略,一方面有助于两种模式之间的信息传播和融合,另一方面在长期传播过程中保持其特异性。

2024-11-12 15:17:44 830

原创 Malleable 2.5D Convolution: Learning ReceptiveFields along the Depth-axis for RGB-D SceneParsing

深度数据提供了几何信息,在RGB-D场景解析任务中能够带来进展。近年来,一些研究提出了RGB-D卷积算子,沿深度轴构建感受野,以处理像素间的3D邻域关系。然而,这些方法通过超参数预定义深度感受野,因此依赖于参数的选择。在本文中,我们提出了一种新的算子,称为可调2.5D卷积,用于学习沿深度轴的感受野。可调2.5D卷积包含一个或多个2D卷积核。我们的方法根据像素的相对深度差异,将每个像素分配给其中一个卷积核或不分配任何卷积核,该分配过程被公式化为可微的形式,以便通过梯度下降进行学习。

2024-11-10 10:49:55 763

原创 RRSIS: Referring Remote SensingImage Segmentation

从遥感图像中定位目标在实际应用中有很大的用处。参考图像分割的目的是分割出给定表达所指向的对象,这在自然图像中得到了广泛的研究。我们为这项任务创建了一个名为RefSegRS的新数据集,使我们能够评估不同的方法。

2024-11-06 17:17:04 1100

原创 LAVT: Language-Aware Vision Transformer forReferring Image Segmentation

参考图像分割是一项基本的,旨在从图像中分割出由自然语言表达所引用的对象。这项任务背后的关键挑战之一是利用引用表达式来突出显示图像中的相关位置。解决这个问题的一个范例是利用一个强大的视觉语言(“跨模态”)解码器来融合从视觉编码器和语言编码器中独立提取的特征。最近的方法通过利用Transformer作为跨模态解码器在这个范例中取得了显著的进步,同时Transformer在许多其他视觉语言任务中取得了压倒性的成功。在这项工作中,我们采用了一种不同的方法,表明可以。

2024-11-06 14:13:38 1049

原创 Transformer中的Encoder

Self-Attention在计算的时候会考虑完整地input,但是masked self-Attention只会考虑自身及其左边的input。展示一下Cross Attention模块具体是怎么执行的。

2024-10-30 19:38:53 243

原创 TransVG: End-to-End Visual Grounding with Transformers

视觉基础(也称为参考表达理解、短语定位和自然语言对象检索)。该技术的发展为人类的自然语言表达和物理世界的视觉组件提供了一个智能接口,具有很大的潜力。它在第一阶段使用一个多层感知器(MLP)来衡量区域提议和语言描述嵌入之间的相似性。:它通过直接连接(concatenation)的方式将语言向量编码到视觉特征中。在FAOA中,语言描述首先被编码成一个向量,然后这个向量与图像的视觉特征直接连接起来,形成一个融合的特征表示直接输出4-dim坐标来grounding object,而不是基于一组候选框进行预测。

2024-10-30 10:27:06 766

原创 A Simple Semi-Supervised Learning Framework for Object Detection

如果对一个未标记的数据应用实际的扰动, 其预测结果不应该发生显著变化, 也就是输出具有一致性,通过在未标记数据上构造添加扰动后的预测结果 y~​ 与正常预测结果 y之间的无监督正则化损失项, 提高模型的泛化能力。是首先为未标记的数据生成人工标签,并训练模型在为未标记的数据提供保持语义的随机增强时预测这些人工标签。本文的工作:利用深度SSL在图像分类方面的经验来解决SSL用于目标检测的问题。提出了一个用于对象检测的SSL框架,该框架结合了自我训练(通过伪标签)和基于强数据增强的一致性正则化。受。

2024-10-25 21:31:24 1179

原创 终于理解softmax回归了!!!

softmax回归理解与举例

2024-10-23 21:11:19 153

原创 Mean teachers 论文学习+代码复现

记录了在看mean teacher过程中的疑问以及简单的梳理

2024-10-23 15:17:36 1929

原创 深度学习任务及数据基本操作

人能在几秒钟做出反应的时间都可以看作是感知范围内的事情。

2024-10-16 20:41:13 263

原创 线性回归+基础算法优化

2024-10-16 20:33:46 114

原创 矩阵求导数

优化模型的求解基本都是通过求导数获得的,导函数的作用主要是用于梯度下降,不需要知道具体是怎么计算的,但是要知道input和output的形状是什么样子的

2024-10-16 18:52:46 260

原创 用SAM2和Cutie模型目标追踪

SAM2、cutie

2024-10-13 16:45:07 700

原创 DINOv2代码学习

例如,某些分割任务可能需要结合不同尺度的信息,这时候提取网络中间层的特征图就非常有用。

2024-10-13 16:14:15 1851

原创 DINOv2: Learning Robust Visual Featureswithout Supervision

在自然语言处理方面的模型,可以产生通用视觉特征(即无需微调即可跨图像分布和任务工作的特征)来极大地简化任何系统中图像的使用。这些模型能够提取出一些可以在。这意味着不管图像的来源(例如,来自不同的相机或场景)或者任务的具体需求(例如,分类、检测等),这些提取的特征都能有效工作。这种通用性能够,从而简化了图像在系统中的处理流程。那么通用的视觉特征比如:边缘和纹理、颜色和亮度分布等等。如何产生这样的通用视觉特征呢?现有的预训练方法,尤其是自监督方法,如果,可以产生此类特征。在数据方面,我们提出了一个。

2024-10-06 14:16:36 2356

原创 SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

SAM2POINT 3D作为视频分割

2024-09-08 16:08:15 1458

原创 《基础模型时代的图像分割》研究综述

图像分割的目标:将像素划分为不同的组别现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)

2024-09-02 20:25:22 472

原创 《多模态大规模语言模型基准》综述

为了更好地对齐不同模态的知识并避免在预训练阶段发生灾难性遗忘(即模型完全忘记了之前学到的知识),模型参数θ通常只包括一个可学习的模态接口,即vision-language projector。通过在不同场景下评估MLLMs,可以为这些领域的实际应用提供有价值的指导,从而推动MLLMs在实际问题解决中的发展和应用。评估MLLMs在处理敏感数据和执行可能对社会产生重大影响的任务时的表现,有助于确保技术的负责任使用,避免偏见和歧视。通过评估和比较不同模型,可以激发健康的竞争,推动整个领域技术的进步。

2024-08-29 11:32:23 947

原创 深度学习环境配置报错解决日记

1、detectron2需要编译首先需要在自己创建的虚拟环境中下载一下detectron2接下来就是编译环节:在win系统中,需要安装VS加以编译在Linux系统中:不需要安装无论哪个系统,再执行一下注意:在编译的时候,在setup.py的上一层目录中执行编译。2、在Linux终端使用命令行的方式运行代码的时候,注意python的正确路径,比如下面这个,python所在的位置是我自己创建的虚拟环境中的python,后面在跟上要执行的python文件就可以了。

2024-07-24 20:03:21 297

原创 GPU配置pytorch环境(links for torch)

四、从links for torch网站下载与自己cuda版本和python版本对应的torch。三、打开或新建一个pycharm项目,把环境选成我们刚刚新建的虚拟环境。五、在pycharm的终端pip install 安装torch。六、验证pytorch是否成功安装。一、创建一个新的虚拟环境。

2024-06-30 17:07:37 340

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除