自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 收藏
  • 关注

原创 COD论文笔记 Deep Gradient Learning for Efficient Camouflaged 2022

特征分组与重组:通过分组和重组策略,将上下文和纹理特征有效结合。软分组策略:通过多尺度的非线性投影,增强特征表示能力。并行残差学习:在不同尺度上进行残差学习,进一步提升特征融合效果。综上所述,梯度诱导过渡模块(GIT)通过灵活的特征分组、软分组策略和并行残差学习,实现了上下文特征和纹理特征的高效融合,从而提高了伪装目标检测的性能。解码器设计:通过NCD解码器实现上下文特征的有效利用,生成高质量的分割预测。损失函数:组合加权交并比损失和加权二值交叉熵损失,增强模型对全局结构和难度较大像素的关注;

2024-07-19 17:40:35 611

原创 深度学习根据代码可视化模型结构图的方法

Netron 是一个支持多种深度学习模型格式的可视化工具,可以将 PyTorch 模型转换为 ONNX 格式,然后使用 Netron 进行可视化。在浏览器中打开即可查看模型的结构图。

2024-07-18 18:10:54 182

原创 AutoDL中怎么在本地查看使用netron可视化得到的模型结构图

在 Autodl 实例这里的自定义服务里实名认证后开通自定义服务,Autodl 目前只开放了 6006 端口给自定义服务,

2024-07-18 15:11:29 233

原创 multi-scale supervision和deep supervision的区别是?

在计算机视觉中的图像分割任务中,multi-scale supervision(多尺度监督)是一种用于提升模型性能的方法。其主要思想是通过在不同尺度下对模型进行训练和监督,以捕捉图像中的多尺度特征和细节。:在模型的特征提取过程中,通过不同的卷积层或不同大小的卷积核来提取不同尺度的特征。这些特征可以包括从全局到局部的各种信息。:在训练过程中,不仅对最终输出的预测结果进行监督,还对中间层的特征图进行监督。每个特征图都有相应的监督信号(即损失函数),这些监督信号会根据特征图的尺度进行调整。

2024-07-17 17:38:20 598

原创 在计算机视觉图像分割领域,梯度图为什么可以作为监督信息?

边缘通常对应于物体的轮廓或区域的边界,因此梯度图可以提供关于这些边界的重要信息,从而帮助分割网络更准确地划分不同的区域。综上所述,梯度图作为监督信息,可以有效增强分割模型对边界和细节的捕捉能力,提高分割结果的精度和鲁棒性。这意味着即使图像存在一些光照变化或颜色差异,梯度图依然可以有效地捕捉到重要的结构信息,从而提高分割的鲁棒性。:通过计算图像在不同尺度下的梯度,可以获得多尺度的边缘信息。在分割任务中,细节的保留可以提高分割结果的精度,特别是在处理复杂或小规模的物体时。

2024-07-17 17:00:32 129

原创 COD论文学习 ZoomNext

摘要简洁地介绍了研究背景、方法的创新之处、主要技术细节、以及实验结果。ZoomNeXt通过模拟人类观察行为,采用多尺度特征集成和不确定性感知损失,在伪装物体检测任务上取得了显著的性能提升。总体而言,本文的方法模拟了人类观察混乱场景时放大和缩小的策略,从多个尺度同步考虑对象和背景之间的关系,从而全面感知伪装物体和混乱场景。这种方法在静态和动态场景下都能准确且稳健地分割伪装物体。尺度合并子网络通过多头尺度集成单元(MHSIU)实现不同尺度特征的过滤和融合。

2024-07-17 16:32:05 746

原创 怎么把VMamba作为Feature Extractor集成到现有模型

先把 Mamba官方代码仓库这个文件夹VMamba/classification/models下面的所有文件复制到你需要自定义特征提取的代码的目录下,然后把Mamba官方代码仓库 VMamba/kernels 文件夹复制到相同目录下,然后执行这个命令# Backbone_VSSM 根据不同的参数配置构建不同的模型变体'''# 实例化模型 vmamba_tiny_s2l5out_indices=(0, 1, 2, 3), # 选择输出的stage。

2024-07-16 21:37:29 307

原创 深度学习计算机视觉中,如何理解feature maps的channel?

输入图像的通道:在最开始,输入图像通常有三个通道,对应于RGB三个颜色通道。因此,一个输入图像可以表示为一个形状为H×W×3H×W×3的张量,其中HHH是图像高度,WWW是图像宽度,3 是颜色通道数。卷积操作:当我们对图像应用卷积层时,我们会使用多个卷积核(filter)来扫描输入图像。每个卷积核会在输入图像上滑动,并产生一个单独的特征图。通常,我们会使用多个卷积核来提取不同的特征,这样我们就会得到多个特征图。特征图的通道:经过卷积操作后,输出的特征图也会有多个通道。

2024-07-16 17:12:38 903 1

原创 COD综述论文学习笔记

尽管伪装问题早已被研究人员提出,例如Gerald等人和Hugh等人在伪装动物研究中的工作,但很少有工作直接将COD作为一个任务来处理。在大多数情况下,研究人员仅仅将伪装视为某些任务中的一个独特过渡状态,随后采用各种技术来减轻或消除其影响。2019年提出了一种基于深度学习的COD方法,并在随后的几年中取得了显著发展。但一个根本问题仍然存在:我们究竟如何定义一个目标是否为伪装目标。具体来说,社区通常将那些与周围环境融合的目标的检测和分割称为“伪装目标检测”。这是因为这些目标通常具有与背景相似的模式。

2024-07-16 16:58:36 858

原创 ApplSci_2024 Camouflaged Object Detection That Does Not Require Additional Priors

在本文中,作者引入了一种新的伪装线索制导网络(CCGNet),用于伪装目标检测,不依赖于额外的先验知识(比如边缘特征信息)。具体来说,使用自适应方法来跟踪模型相对于伪装对象的学习状态,并从原始图像中动态提取伪装对象的线索。此外,我们还引入了前景分离模块和边缘细化模块,以有效地利用这些伪装线索,帮助模型完全分离伪装对象并实现精确的边缘预测。编码器:特征提取层(f1, f2, f3, f4)和自适应特征融合模块(AFFM)。解码器。

2024-07-15 21:44:14 665

原创 深度学习计算机视觉中, 多尺度特征和上下文特征的区别是?

多尺度特征主要关注不同尺度上的特征提取,以捕捉物体在不同大小和尺度上的表示。上下文特征则更多地关注特定区域或像素的周围环境和关系,以更好地理解局部特征在整体图像中的位置和作用。两者常常结合使用,以提升模型的鲁棒性和精度。例如,在目标检测和分割任务中,通常会使用多尺度特征来识别不同大小的物体,同时利用上下文特征来提高对复杂场景的理解能力。

2024-07-15 19:46:11 404

原创 MMSegmentation笔记

这里可以选择mmsegmentation/configs/目录下的不同模型进行实验,这里以unet为例,我创建的这个文件代码如下:可以看到,_base_定义了模型配置,数据集配置,调度策略配置,运行时配置。然后也定义了裁剪大小,数据预处理。_base_ = [

2024-07-10 16:02:17 430

原创 论文学习笔记 MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer

标准的ViT模型在处理图像时,通过划分patch、投影到固定维度并使用 Transformer 来学习全局表示。然而,这种方法忽略了空间归纳偏置,需要更多的参数,且对优化和正则化非常敏感。MobileViT 通过结合卷积的空间偏置和 Transformer 的全局处理能力,在保持模型轻量化的同时,提供了更优的性能和更简单的训练方法。目的:MobileViT模块旨在以较少的参数量对输入张量中的局部和全局信息进行建模。操作:对于给定的输入张量X∈RH×W×CX∈RH×W×C。

2024-07-06 19:46:28 887

原创 卷积神经网络和Vision Transformer的对比之归纳偏置

每个像素点与其他所有像素点的关系都被考虑在内,这使得ViT在处理全局特征时非常有效,特别是在复杂的图像场景中。同一个卷积核在整个图像上滑动(卷积操作),从而在不同位置上使用相同的参数。由于卷积核在图像上的滑动操作,CNN对图像的平移具有一定的不变性。由于缺乏像CNN那样的强归纳偏置,ViT需要大量的数据来学习图像的各种模式和特征。如果数据量不足,ViT的性能可能不如CNN。简单来说,CNN的归纳偏置让它在处理局部特征时更加高效和鲁棒,而ViT的全局注意力使得它在数据量充足时能更好地处理全局信息。

2024-07-06 15:38:54 467

原创 COD论文笔记TCSVT_2024 Efficient Camouflaged Object Detection Network Based on Global Localization

GRD 通过利用高层特征引导低层特征,过滤大量噪声,同时保留更多边缘细节,从而显著提高了伪装目标检测的精度和细致度。

2024-07-04 22:07:41 883

原创 什么是deep supervision?

Deep supervision 是一种在训练深度神经网络时,通过在中间层添加辅助监督信号来改进训练效果的技术。它能够缓解梯度消失问题,加速收敛,并提高模型的泛化能力。

2024-07-04 21:08:37 352

原创 COD论文笔记 TCSVT_2024 Finding_Camouflaged_Objects_Along_the_Camouflage_Mechanisms

论文的动机是重新审视伪装物体检测(COD)任务,并从伪装机制的角度提出一种新的解码伪装的方法。传统的COD方法难以准确区分伪装物体和背景,因此作者提出通过借助显著物体检测(SOD)任务来实现解码伪装,从而更好地检测伪装物体。这些创新点显著提升了伪装物体检测的性能,实验结果表明,提出的模型在多个COD数据集上均优于现有方法。

2024-06-25 22:25:01 535

原创 COD论文笔记 AI_AppInt 2024 Two guidance joint network based on coarse map and edge map

这张图通过展示不同的图像增强方法,说明了如何利用地面实况图像和边缘信息来提升伪装物体的检测效果。(d)通过增强整体区域,使伪装物体在背景中更容易被识别。(e)通过增强边缘信息,使伪装物体的轮廓更加明显。(f)结合了整体区域和边缘信息的增强效果,使伪装物体更加突出且边缘清晰,是最有效的增强方法之一。这些传统图像增强方法为本文提出的信息引导模块 (IGM) 提供了设计灵感,IGM 利用类似的思想,从边缘图和粗略图中提取有意义的信息,并注入到网络特征中,增强特征的表达能力,从而提升伪装物体检测的性能。

2024-06-25 17:26:11 801

原创 深度学习调参笔记

就是因为增加了下面这个代码片段,使得训练过程耗时增加了3倍。。。注释掉这段代码导致训练时间缩短了2/3的主要原因与和这两个选项有关。

2024-06-21 18:16:56 952

原创 计算机视觉中,数据增强和扩充数据集规模的区别是什么?

数据增强:通过对现有数据进行变换,增加数据的多样性和泛化能力。扩充数据集样本规模:通过收集或生成新数据,增加数据集的样本数量,提高模型的训练效果。通过理解这两者的区别和结合使用,你可以更有效地提高语义分割模型的性能。如果有任何进一步的问题或需要更多帮助,请随时告诉我。

2024-06-19 16:44:29 650

原创 mmsegmentation使用记录

原因,MMCV版本不匹配。

2024-06-15 18:42:46 181

原创 WINDOWS安装eiseg遇到的问题和解决方法

原因是 opencv-python 版本不匹配。降级 opencv-python 版本。解决办法,执行这个命令。

2024-06-14 16:17:48 381

原创 语义分割的数据集各式

比较经典的2种。

2024-06-14 16:13:25 437

原创 如何理解分类任务中的logits?

通过在类别通道维度上应用 argmax 操作,可以找到概率最大的类别,并将该类别的索引作为该像素点的最终预测结果。总结来说,argmax 在类别通道维度上应用,以便为每个像素点找到概率最大的类别,从而生成最终的语义分割图。这是实现语义分割的关键步骤,因为它将每个像素点的类别概率分布转换为具体的类别标签。argmax 会选择每个像素点的概率向量中最大的元素的索引,表示该像素点的预测类别。是模型输出的原始分数,通常是在通过模型的最后一个全连接层之后但在激活函数(如 softmax)之前获得的。

2024-06-13 19:03:19 639 2

原创 迁移学习和从头训练(from scratch)的区别

你利用在大规模数据集(ImageNet)上预训练好的模型权重,然后在你的特定任务(你自己的数据集)上进行微调。这种方法通常可以加快训练速度,并且因为模型已经学习到了很多通用特征,可能会提高性能。这是一种从头开始(scratch)训练模型的方法,所有的权重都是随机初始化的,然后在你的数据集上进行训练。例如对于图像分类任务,有自己的数据集,打算利用 resnet 来实现,有2种实现方式,那么这两种情况,第一种方式属于使用迁移学习,第二种不属于迁移学习。总结:第一种方式是迁移学习,第二种方式不是迁移学习。

2024-06-12 16:51:52 352

原创 pytorch中,load_state_dict和torch.load的区别?

torch.load用于从磁盘加载任意对象(通常是状态字典)。用于将加载的状态字典应用到模型或优化器实例上。# 定义模型# 创建模型和优化器# 保存模型和优化器的状态字典# 加载模型和优化器的状态字典这段代码展示了如何定义一个简单的模型,保存它的状态字典,然后加载这些状态字典到新的模型和优化器实例中。

2024-06-12 10:30:19 625

原创 深度学习中,sigmoid和softmax生成注意力权重的区别是什么?

具体使用哪个函数,取决于你的模型和任务需求。如果需要生成独立的注意力权重,可以使用sigmoid;如果需要分配整体注意力到各个输入,使用softmax更为合适。

2024-06-11 15:07:56 503

原创 关于torch.size和tensor的维度笔记

和是两个不同形状的张量 (tensor) 大小。​a1​a2​⋮a200​​​a1​a2​a200​在使用过程中,它们的主要区别在于数据的存储和处理方式。保留了二维结构的信息,而则是完全扁平化的一维结构。

2024-05-30 15:07:19 911

原创 COD论文笔记 CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models_AAAI_2024

通过利用扩散模型的随机采样过程,CamoDiffusion模型能够生成多种可能的预测结果,这有助于捕捉和反映边界区域的预测不确定性,从而避免传统方法中因过于自信的点估计所导致的错误,提高伪装物体检测的准确性和可靠性。这篇论文提出了一种名为CamoDiffusion的方法,用于检测伪装的物体。CamoDiffusion方法利用了一种叫做“扩散模型”的先进技术,来逐步改进和生成伪装物体的检测结果。这种方法通过添加和去除噪声,逐步从初始的粗略预测变成精确的结果。

2024-05-30 10:52:00 887

原创 COD论文笔记VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning

VSCode模型通过引入领域特定提示和任务特定提示,结合提示区分损失,成功地在单一模型中处理多个显著目标检测和伪装目标检测任务。这种方法不仅提高了模型的性能,还展示了其对未见任务的泛化能力。作者使用 Visual saliency transformer ICCV 2021 作为baseline model这张图展示了VSCode模型的整体框架,特别强调了2D提示学习方法。

2024-05-29 17:16:17 754

原创 论文笔记 Explicit Visual Prompting for Low-Level Structure Segmentations

想象一下,你有一个已经接受过大量训练的超级助手(类似于预训练的模型),这个助手已经学习了大量关于图像的知识,但现在你需要让它快速适应并执行一些特定的任务,比如识别模糊区域、找到阴影、检测伪造的图像部分或者发现伪装的物体。视觉中的提示(prompt)是一种通过添加少量的额外信息或指导,让已经训练好的模型在不需要重新训练的情况下,高效地适应和完成特定任务的方法。这样既利用了预训练模型的强大能力,又能灵活地处理不同的视觉任务。隐式提示:通过间接的方法让模型自己去发现和适应重要特征,效率较低,过程像是黑盒操作。

2024-05-29 17:12:40 1159

原创 COD论文笔记 CamoFocus: Enhancing Camouflage Object Detection With Split-Feature Focal Modulation

这篇论文提出了一种名为CamoFocus的新方法,用于检测伪装在背景中的物体。CamoFocus通过两个关键组件(特征分割和调制模块FSM,以及上下文细化模块CRM)来改进伪装物体的检测。CamoFocus是一种新颖且高效的伪装物体检测方法,通过特征分割和调制模块(FSM)以及上下文细化模块(CRM)的协同作用,显著提升了检测性能。这种方法在减少计算复杂度的同时,提供了更准确的检测结果,具有广泛的应用潜力。这张配图2展示了论文中CamoFocus模型的整体架构,包括各个模块和它们的相互作用。

2024-05-29 15:19:45 836

原创 Dice损失函数

Dice损失函数通过最大化模型预测结果与真实标签的重叠部分来提高分割精度,特别适用于医学图像分割等需要高精度的小目标区域分割的场景。其公式简单直观,计算方便,同时在处理类别不平衡问题上表现出色,是图像分割任务中的常用损失函数。

2024-05-29 13:45:45 938

原创 Pytorch 笔记

就地操作会直接修改原始张量的值,通常以a.mul_(b):就地进行元素级相乘非就地操作会创建新的张量并返回结果,而不改变输入张量的值。这些不同的乘法操作方式在不同的应用场景中有不同的用途,根据需要选择适合的乘法方式。

2024-05-28 22:57:46 1079 2

原创 COD 论文笔记 A Simple yet Effective Network based on Vision Transformer for Camouflaged Object

CAMO:包含1,000张训练图像和250张测试图像。CHAMELEON:包含76张测试图像,无训练图像。COD10K:包含3,040张训练图像和2,026张测试图像。NC4K:包含4,121张测试图像,无训练图像。Paradigm 1:整个网络共享同一个编码器和解码器,结构简单,但任务间可能互相干扰。Paradigm 2:共享编码器但使用独立的解码器,能够更好地处理任务间的干扰,提高单个任务的性能。

2024-05-25 21:57:54 950

原创 Element-wise Addition和Element-wise Multiplication

对于逐元素相加操作,要求两个特征图的空间尺寸和通道数必须相同。对于逐元素相乘操作,同样要求两个特征图的空间尺寸和通道数必须相同。在神经网络中,逐元素相加通常用于将来自不同层或不同模块的特征进行合并,从而保留每个位置的特征信息。确保特征图在这两种操作中的尺寸和通道数相同是非常重要的,以保证操作的正确性和特征融合的有效性。:用于将下采样后的边缘特征与输入特征融合,或者将通道注意力权重与特征图融合,以突出重要特征。:用于将初始融合特征和输入特征相加,确保在每个位置上同时保留原始特征和融合特征的信息。

2024-05-25 21:11:31 818

原创 全局平均池化笔记

例如,在经典的卷积神经网络如ResNet中,GAP被用来替代传统的全连接层,简化了模型结构,并保持或提升了性能。这有效地减少了模型中的参数数量,相比于全连接层,它不需要额外的权重参数,从而减小了模型的复杂度和过拟合的风险。:全局平均池化对特征图的输入位置不敏感,主要关注的是特征的存在与否,而不是其具体位置。:通过对整个特征图进行平均池化,全局平均池化能够整合全局的空间信息,而不仅仅是局部的信息。:在分类任务中,GAP通过将每个类别的特征图聚合成一个数值,使得网络更直接地学习到每个类别的全局特征。

2024-05-25 21:09:06 578

原创 COD论文笔记 Boundary-Guided Camouflaged Object Detection

这张图展示了BGNet如何通过EAM模块提取边缘特征,EFM模块融合这些边缘特征,并通过CAM模块聚合多级特征,最终实现伪装物体的准确检测和分割。该方法在实验中表现出色,显著提升了伪装物体检测的性能。这篇论文的实验部分详细介绍了模型的实现、评估指标、数据集和对比方法。

2024-05-25 18:49:19 1095

原创 timm笔记

注意:返回的 PyTorch 模型默认设置为训练模式,因此如果你计划使用它进行推理,则必须在其上调用 .eval()。这个函数会通过入口函数将相关参数传递给。函数用于创建一个模型。可以创建一个只输出特征图的模型,使用。指定输出哪些层的特征。,则在传递前会被剔除。

2024-05-25 18:30:31 242

原创 论文笔记 Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects, ICLR 2024.

图分为两个阶段:Phase I和Phase II,并通过交替训练的方式迭代进行。Phase I中固定检测器(Ds),训练生成器(Gc);Phase II中固定生成器(Gc),训练检测器(Ds)。这张图通过直观的流程图展示了Camouflageator框架的工作机制,说明了如何通过对抗训练生成更难以检测的伪装物体,从而提升伪装物体检测器的性能。每个阶段的具体步骤和优化过程清晰地展示了生成器和检测器的交替训练方式。Camouflageator框架。

2024-05-24 18:43:09 848

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除