自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 【CVPR2025】计算机视觉|即插即用|DCIM:Mamba再进化!PET-CT分割精度暴涨,医学影像迎来新突破!

肺癌是全球癌症相关死亡的主要原因之一。PET-CT对于肺肿瘤的成像至关重要,它提供必要的代谢和解剖信息,但也面临着图像质量差、运动伪影和复杂肿瘤形态等挑战。人们期望基于深度学习的模型能够解决这些问题,然而,现有的小规模和私有数据集限制了这些方法性能的显著提升。因此,本研究引入了一个大规模的PET-CT肺肿瘤分割数据集,名为PCLT20K,它包含来自605名患者的21930对PET-CT图像。此外,本研究提出了一种带有Mamba的跨模态交互感知网络(CIPA),用于PET-CT图像中的肺肿瘤分割。

2025-06-13 09:00:00 355

原创 【CVPR2025】WAVE 大模型初始化迎来新范式!

本研究提出了一种新的方法WAVE,它从多任务的角度重新构建了可变尺寸模型的初始化,其中初始化每个模型尺寸被视为一个不同的任务。WAVE采用共享的、尺寸无关的权重模板以及尺寸特定的权重缩放器,以实现各种模型尺寸之间的一致初始化。这些权重模板在Learngene框架内构建,通过受Kronecker规则约束的蒸馏过程整合了来自预训练模型的知识。然后,通过连接和加权这些模板来初始化目标模型,并通过轻量级权重缩放器建立自适应连接规则,这些缩放器的参数从最少的训练数据中学习。

2025-06-12 09:00:00 449

原创 【CVPR2025】计算机视觉|Do Your Best and Get Enough Rest for Continual Learning

根据遗忘曲线理论,通过学习大量数据和进行充分休息可以增强记忆保持。这意味着,为了有效地记住新的知识,彻底学习知识并确保充分休息至关重要,这样大脑才能在不遗忘的情况下记住知识。该理论的主要结论是,一次性学习大量数据需要在再次学习相同数据之前进行充分休息。人类长期记忆保持的这一方面可以有效地用于解决神经网络的持续学习问题。在没有灾难性遗忘的情况下长期保持新知识是持续学习的关键问题。因此,基于艾宾浩斯理论,本研究引入了视图批次模型,该模型调整学习进度,以优化重新训练相同样本之间的回忆间隔。所提出的视图批次模型。

2025-06-11 09:00:00 719

原创 【CVPR2025】计算机视觉|DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation

近期数据集蒸馏的进展主要集中在两个方向。传统的批次到批次匹配机制适用于小规模数据集,包括模型和合成的双层优化方法,如FRePoRCIG和RaT-BPTT,以及其他如分布匹配、梯度匹配和权重轨迹匹配等方法。相反,批次到全局匹配是解耦方法的典型代表,尤其适用于大规模数据集。这种方法在社区内引起了广泛关注,如SRe2LG-VBSMWMDD和CDA。第二种方法的主要挑战是每个类别中合成图像的多样性不足,因为样本是独立优化的,并且相同的全局监督信号在不同的合成图像中重复使用。本研究提出了一种新的。

2025-06-10 09:00:00 663

原创 【CVPR2025】计算机视觉|Towards Lossless Implicit Neural Representation via Bit Plane Decomposition

本研究从数字角度量化了隐式神经表示(INR)模型大小的上限。模型大小的上限随着所需比特精度的增加呈指数增长。为此,本研究提出了一种比特平面分解方法,使INR能够预测比特平面,从而达到降低模型大小上限的效果。本研究验证了降低上限能够加快恒定模型大小的收敛速度的假设。本研究的方法在2D图像和音频拟合中实现了无损表示,即使对于高比特深度信号(如16比特)也是如此,这在以前是无法实现的。本研究率先提出了比特偏差的存在,即INR优先学习最高有效位(MSB)。本研究将INR任务的应用扩展到。

2025-06-09 09:00:00 600

原创 【CVPR2024】计算机视觉|MambaOut: Do We Really Need Mamba for Vision?

摘要:本研究探讨了Mamba模型(基于状态空间模型SSM)在视觉任务中的适用性。研究发现,Mamba因其RNN特性而适合长序列和自回归任务,但图像分类不具备这些特征。通过构建移除SSM的MambaOut模型,实验显示其在ImageNet分类上优于视觉Mamba模型,验证了SSM的非必要性;而在检测和分割任务中,MambaOut表现不及Mamba,表明SSM对长序列视觉任务仍有潜力。论文创新性地分析了Mamba的适用场景,并通过实验验证了其假设。

2025-06-08 09:00:00 694

原创 【论文解读】FDConv|Frequency Dynamic Convolution for Dense Image Prediction

本研究介绍了一种新的频率动态卷积(FDConv),旨在通过在傅里叶域中学习固定参数预算来缓解这些限制。FDConv将此预算划分为具有不相交傅里叶指数的基于频率的组,从而能够在不增加参数成本的情况下构建频率多样化的权重。为了进一步增强适应性,本研究提出了核空间调制(KSM)和频带调制(FBM)。KSM在空间层面上动态调整每个滤波器的频率响应,而FBM将权重分解为频域中不同的频带,并根据局部内容动态调制它们。在对象检测、分割和分类方面的大量实验验证了FDConv的有效性。

2025-06-07 09:00:00 1335

原创 【论文解读】vHeat|Building Vision Models upon Heat Conduction

本研究提出基于热传导原理的vHeat视觉表征模型,通过热传导算子(HCO)实现全局感受野。HCO将图像块视为热源,利用自适应热能扩散建模相关性,借助离散余弦变换(DCT)降低计算复杂度至O(N^1.5)。实验表明,vHeat在图像分类、目标检测和语义分割任务中性能优异,相比Swin-Transformer吞吐量提升3倍,GPU内存减少80%,计算量降低35%。该模型兼具物理可解释性和高效性,为视觉表征学习提供了新思路。

2025-06-06 10:26:09 708

原创 【论文解读】ViT|Revisiting Continuity of Image Tokens for Cross-Domain Few-shot Learning

视觉转换器 (ViT) 由于其在通用领域的大规模预训练而取得了显著成功,但当将其应用于仅有少量训练数据的下游远域时,仍然面临挑战,这导致了跨域小样本学习 (CDFSL) 任务的出现。扰乱 ViT 中图像token的连续性(即,使像素在patch之间不能平滑过渡)会导致在通用(源)域中性能显著下降,但在下游目标域中仅略微降低。这质疑了在较大的领域差距下,图像token的连续性在 ViT 泛化中的作用。在本文中,本研究深入研究了这种现象以进行解释。本研究发现。

2025-06-05 14:55:05 949

原创 【论文解读】ACM|Asymmetric Convolution: An Efficient and Generalized Method to Fuse Feature Maps

本研究探讨了在多种计算机视觉任务中融合来自不同来源的特征这一关键问题。现有方法大致可分为无参数操作和可学习操作。然而,无参数模块在离线学习中受益的能力有限,导致在某些具有挑战性的情况下表现不佳。可学习的融合方法通常占用大量空间和时间,特别是在融合具有不同形状的特征时。为了解决这些缺点,本研究对两种融合方法的局限性进行了深入分析。基于分析结果,本研究提出了一种名为非对称卷积模块(ACM)的通用模块。该模块可以学习在离线训练期间编码有效的先验信息,并有效地融合特定任务中具有不同形状的特征图。

2025-06-04 09:32:01 750

原创 【论文解读】FeINFN|Fourier-enhanced Implicit Neural Fusion Network for Multispectral

本文提出了一种基于傅里叶增强的隐式神经融合网络(FeINFN)用于多光谱和高光谱图像融合任务。针对传统隐式神经表示(INR)存在丢失高频信息和缺乏全局感知能力的问题,FeINFN设计了空间和频率隐式融合函数(Spa-Fre IFF),通过将潜在代码转换到傅里叶域,同时执行空间和频率融合,有效增强高频信息表示并扩大感受野。此外,创新性地提出采用复数Gabor小波激活的空间-频率交互解码器(SFID)来优化特征集成。理论证明了Gabor小波的时频紧致性有利于学习最优带宽。实验结果表明,该方法在两个基准数据集上取

2025-06-03 11:28:34 625

原创 【论文解读】DN-DETR|DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

本文提出了一种基于去噪训练的新方法(DN-DETR)以加速DETR类目标检测模型的训练收敛。研究发现,DETR收敛缓慢的主要原因是早期训练阶段二分图匹配的不稳定性。为此,该方法在Transformer解码器中引入带噪声的GT边界框作为额外输入,通过重建原始框的辅助任务降低匹配难度。实验表明,该方法仅需添加少量代码即可显著提升性能,在12/50 epoch训练后分别达到46.0AP/49.5AP,相比基线用50%训练周期即可获得相当效果。该方法还成功推广至Faster R-CNN、Mask2Former等多种

2025-06-03 08:00:00 794

原创 YOLOv10改进|爆改模型|涨点|C2F引入空间和通道注意力模块暴力涨点(附代码+修改教程)

本文修改的模型是YOLOv10,YOLOv10无需非极大值抑制(NMS)进行后处理,其推理速度以及参数量上都优于现有的模型。C2f (Cross-Stage Partial-Connection with 2 convolutions) 模块是YOLOv6中引入的一种结构,其主要目的是在保持高效性的同时,增强特征融合能力。它通过将输入特征图拆分为两部分,一部分直接通过,另一部分经过一系列卷积操作后再与前者拼接,从而实现跨阶段的特征融合。尽管C2f在YOLOv6中表现出色,但多尺度目标检测仍然是一个核心挑战。

2025-06-02 18:13:01 452

原创 【论文解读】Deformable DETR | Deformable Transformers for End-to-End Object Detection

摘要 本文提出Deformable DETR,改进DETR目标检测器的收敛速度与小物体检测性能。针对DETR因Transformer注意力机制导致训练慢(需500轮)和高分辨率特征处理困难的问题,作者设计可变形注意力模块,仅聚焦参考点附近少量关键采样点,降低计算复杂度。实验表明,Deformable DETR训练周期缩短10倍(50轮即可收敛),在COCO基准上性能优于DETR,尤其提升小物体检测效果。此外,扩展的多尺度可变形注意力无需FPN即可融合多级特征,并探索了迭代边界框优化和两阶段检测框架进一步优化

2025-06-01 16:40:12 975

原创 【论文解读】DETR | End-to-End Object Detection with Transformers

本文提出DETR(DEtection TRansformer),一种基于Transformer的端到端目标检测方法。DETR将目标检测视为集合预测问题,通过Transformer编码器-解码器架构直接输出预测集合,无需传统方法中的手工设计组件(如NMS或锚框)。核心创新包括基于二分匹配的集合预测损失和并行化Transformer解码。在COCO数据集上,DETR性能与优化后的Faster R-CNN相当,在大目标检测上表现更优,且能轻松扩展到全景分割任务。该方法简化了检测流程,为端到端目标检测提供了新思路。

2025-06-01 09:58:55 802

原创 YOLOv10改进|爆改模型|涨点|在颈部网络添加结合部分卷积PConv和SDI融合方法的PSDI特征融合层(附代码+修改教程)

《YOLOv10改进:引入PSDI特征融合模块提升多尺度目标检测性能》 摘要:本文针对YOLOv10在多尺度目标检测任务中的局限性,提出了PSDI(Partial Convolution-based Semantic Decoupled Integration)特征融合模块。该模块在骨干网络后结合部分卷积(PConv)和SDI融合方法,通过选择性忽略无效信息来提升特征提取效率。PSDI模块采用PConv处理不同层级特征图(F1-F3),生成通道一致的特征表示,并通过4个3×3卷积层进行特征融合。实验表明,该

2025-05-31 15:00:00 484

原创 YOLOv10改进|爆改模型|涨点|在骨干网络中添加核变形卷积AKConv、注意力模块CA和TFAM特征融合模块(附代码+修改教程)

本文修改的模型是YOLOv10,YOLOv10无需非极大值抑制(NMS)进行后处理,其推理速度以及参数量上都优于现有的模型。在原本的YOLOv10网络结构中,骨干网络最后一层为PSA模块。本文在PSA模块后面追加新模块DCCA,该模块由核变形卷积AKConv、注意力模块CA(Coordinate attention)及特征融合模块TFAM组成。其中,AKConv卷积模块赋予卷积核任意数量的参数和任意采样形状,可以降低网络训练开销,同时提升模型的适应性。

2024-10-17 16:46:59 1023

原创 YOLOv10改进|爆改模型|涨点|在骨干网络中添加RT-DETR中的CCFM模块和动态卷积ODConv(附代码+修改教程)

本文修改的模型是YOLOv10,YOLOv10无需非极大值抑制(NMS)进行后处理,其推理速度以及参数量上都优于现有的模型。在原本的YOLOv10网络结构中,骨干网络最后一层为PSA模块。本文在PSA模块后面追加CCFM模块,并使用ODConv卷积模块提升模型的泛化性。

2024-10-12 11:24:31 2077 5

原创 RT-DETR改进|爆改模型|涨点|在CCFM模块中加入特征融合模块DFM(附代码+修改教程)

本文修改的模型是RT-DETR,在原本的RT-DETR中,CCFM模块输出的多尺度特征图作为 IoU-aware Query Selection的输入。本文将骨干网络及AIFI模块输出的特征图与CCFM模块输出的特征图使用DFM模块进行特征融合。DFM是一种基于密集连接的简单而有效的特征融合模块,可以减少特征不对齐,并计算出更准确的变化特征。

2024-10-11 20:49:25 2147 2

原创 RT-DETR改进|爆改模型|涨点|在骨干网络和CCFM模块之间加入EfficientDet中的BiFPN颈部网络(附代码+修改教程)

本文修改的模型是Deformable-,在原本的RT-DETR中,骨干网络的最高层级输出作为AIFI模块的输入,低层级特征图作为CCFM特征融合模块的输入。本文将骨干网络的输出先作为BiFPN(Bi-directional Feature Pyramid Network)金字塔网络的输入,在将BiFPN的输出作为AIFI模块和CCFM模块的输入。BiFPN通过在不同尺度的特征金字塔网络中引入双向连接,实现了跨层级的信息交流和融合。

2024-10-10 19:49:05 1433 2

原创 RT-DETR改进|爆改模型|涨点|使用VMamba作为骨干网络(附代码+修改教程)

本文修改的模型是RT-DETR,在原本的RT-DETR中,使用ResNet作为骨干网络,本文使用最新的VMamba(Visual State Space Model)替换ResNet作为RT-DETR的骨干网络。VMamba是一种全新的视觉框架,VMamba结合了CNNs和ViTs的优势,同时优化了计算效率,能够在保持全局感受野的情况下实现线性复杂度。

2024-10-09 11:08:16 5016 16

原创 Deformable DETR改进|爆改模型|涨点|在骨干网络和可变形编码器间加入YOLOv10的PSA和SCDown模块(附代码+修改教程)

本文修改的模型是Deformable-DETR,在骨干网络和可变形编码器之间加入YOLOv10的PSA和SCDown模块。其中PSA是YOLOv10提出的一种高效的自注意力模块,为了避免注意力带来的巨额开销,本文将PSA应用于可变形编码器输入的最高层级特征图。SCConv是一种空间和通道解耦的卷积模块,本文将其应用于骨干网络输出的特征图的特征融合,提升模型的多尺度能力。

2024-10-08 19:23:37 1658 6

原创 Deformable DETR改进|爆改模型|涨点|在骨干网络和可变形编码器间加入AFPN颈部网络(附代码+修改教程)

本文修改的模型是Deformable-DETR,在原本的Deformable DETR中,骨干网络的输出通过卷积层后直接作为可变形编码器的输入,无颈部网络。本文在Deformable DETR的骨干网络和可变形编码器之间加入渐近特征金字塔网络(AFPN)作为颈部网络。AFPN的核心在于引入了一种逐步特征融合策略,将底层和高层特征逐渐引入目标检测过程。通过这种方式,可以有效减小不同层次特征之间的语义差异,增强特征融合的效果,使检测模型更好地适应多层次的语义信息。

2024-10-04 09:45:00 949 1

原创 RT-DETR改进|爆改模型|涨点|在AIFI和CCFM之间加入I2U-Net中的HIFA模块(附代码+修改教程)

本文修改的模型是RT-DETR,在原本的RT-DETR中,CCFM的多尺度输入为AIFI及骨干网络的输出。本文在RT-DETR的CCFM模块输入的三个层级特征图之前使用I2U-Net的HIFA以提升模型的特征融合能力。I2U-Net是一种一种新颖的双路径 U-Net,其中提出了一种全面信息融合和增强模块(HIFA),可以有效地连接编码器和解码器。

2024-10-01 00:05:42 2117 3

原创 使用pycocotools打印各个类别的AP值及IOU=0.5时的APS、APM及APL

是用于处理 COCO 数据集的 Python 工具包,提供数据加载、评估工具和可视化功能。它简化了目标检测和图像分割任务,比如计算检测精度、召回率和 IOU(Intersection over Union)。安装pycocotools。

2024-09-26 17:30:22 1018 2

原创 Deformable DETR改进|爆改模型|涨点|在骨干网络和可变形编码器间加入EfficientDet中的BiFPN颈部网络(附代码+修改教程)

本文修改的模型是Deformable-DETR,在原本的Deformable DETR中,骨干网络的输出通过卷积层后直接作为可变形编码器的输入,无颈部网络。本文在Deformable DETR的骨干网络和可变形编码器之间加入EfficientDet中的BiFPN作为颈部网络,提升模型的特征融合能力。

2024-09-26 15:06:15 1198 2

原创 Deformable DETR改进|爆改模型|在可变形编解码器之间加入RT-DETR中的CCFM模块(附代码+修改教程)

本文修改的模型是Deformable-DETR,修改的位置是在可变形编码器和可变形解码器之间,在可变形编码器和可变形解码器之间加入RT-DERT中的CCFM模块,CCFM模块的输入为可变形编码器的最高层级特征图以及backbone的输出。CCFM模块可以提升模型的特征融合能力。

2024-09-24 12:45:37 1098 1

原创 Deformable DETR改进|爆改模型|在可变形编解码器之间加入空洞卷积金字塔和注意力(附代码+修改教程)

本文修改的模型是Deformable-DETR,修改的位置是在可变形编码器和可变形解码器之间,在底层特征图中加入空洞卷积金字塔(ASPP)和注意力机制(ECA),提升模型对小物体的目标检测能力。

2024-09-23 20:37:47 874 1

Deformable-DETR模型代码

Deformable-DETR模型代码

2024-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除