![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
文章平均质量分 92
m0_61899108
这个作者很懒,什么都没留下…
展开
-
【论文笔记】利用扩散模型DDPM做变化检测change detection
去噪扩散模型DDPM去年开始在各种视觉任务取得惊人的效果,变化检测领域也不例外,本文介绍两篇关于如何使用扩散模型实现变化检测的论文。第一篇做法较为自然,先利用遥感数据预训练DDPM,然后将预训练好的网络当作变化检测任务的特征提取器;第二篇则更有意思,不再进行像素分类,而是直接利用扩散模型生成变化图。原创 2024-05-12 23:25:56 · 1488 阅读 · 1 评论 -
【NeurIPS 2023】PromptIR: Prompting for All-in-One Blind Image Restoration
图像恢复是从其受损版本中恢复高质量清晰图像的过程。deep-learning方法显著提升了图像恢复性能,然而,它们在不同类型和级别的退化上的泛化能力有限。这限制了它们在实际应用中的使用,因为需要针对每种具体的退化进行单独训练模型,并了解输入图像的退化类型才能应用相应的模型。本文介绍了一种基于提示的学习方法,称为PromptIR,用于全能图像恢复,可以有效地从各种类型和级别的退化中恢复图像。具体而言,本文方法使用提示来编码退化特定信息,并动态引导恢复网络。原创 2023-12-02 17:34:36 · 1477 阅读 · 2 评论 -
【综述】Diffusion Models: A Comprehensive Survey of Methods and Applications
论文:github:Conditional Image Generation (Image Super Resolution, Inpainting, Translation, Manipulation)原创 2023-10-19 21:57:57 · 2543 阅读 · 0 评论 -
【论文合集】Awesome Diffusion Models 3
介绍使用diffusion来实现多模态学习、3D视觉、对抗攻击,以及语音领域的生成、增强等任务。转载 2023-10-17 15:52:27 · 18891 阅读 · 0 评论 -
【论文合集】Awesome Diffusion Models 2
介绍diffusion做生成、分类、分割、图像翻译、医学图像的论文。来源:https://github.com/diff-usion/Awesome-Diffusion-Models转载 2023-10-17 12:56:41 · 6453 阅读 · 0 评论 -
【论文合集】Awesome Diffusion Models 1
介绍关于diffusino的各种资源和综述论文。转载 2023-10-16 22:13:30 · 1922 阅读 · 0 评论 -
【论文合集】Awesome Video Diffusion
A curated list of recent diffusion models for video generation, editing, restoration, understanding, nerf, etc.原创 2023-10-07 15:08:45 · 2456 阅读 · 0 评论 -
【NeurIPS 2023】Backdoor对抗攻防论文汇总
2023年以及2022年的NeurIPS有关backdoor的对抗攻防的论文。原创 2023-10-05 13:00:44 · 5069 阅读 · 0 评论 -
【TGRS 2023】RingMo-Sense: Remote Sensing Foundation Model for Spatiotemporal Prediction via Spatiotem
遥感时空预测旨在从视频和时间序列图像等历史时空数据中推断未来趋势,在许多领域具有广泛的应用前景。基础模型由于其强大的特征提取能力,是时空信息挖掘的一个很有前途的研究方向,在自然场景中取得了快速的进展。然而,由于遥感数据的空间多尺度和时间多尺度特性,这些方法在应用于遥感时仍然会遇到瓶颈。因此,论文提出了一种基于时空演化去模糊的时空预测遥感基础模型,简称RingMo-Sense。考虑到空间亲和性、时间连续性和时空相互作用,论文构建了空间、时间和时空三分支预测网络。原创 2023-11-11 23:54:24 · 1277 阅读 · 0 评论 -
【arXiv2309】RingMo-lite: A Remote Sensing Multi-taskLightweight Network with CNN-TransformerHybrid Fr
近年来,RingMo的遥感(RS)视觉基础模型在各种下游任务中取得了优异的性能。然而,对计算资源的高需求限制了这些模型在边缘设备上的应用。有必要设计一个更轻量级的基础模型来支持在轨遥感图像解释。现有方法在实现轻量级解决方案的同时在RS图像解释中保持通用性方面面临挑战。这是由于RS图像中复杂的高频和低频频谱分量,使得传统的单一CNN或视觉变换器方法不适合该任务。因此,本文提出了RingMo-lite,一个具有CNN-Transformer混合框架的RS多任务轻量级网络,它有效地利用了RS的频域特性。原创 2023-10-04 15:03:31 · 2787 阅读 · 0 评论 -
【CVPR 2023】 All are Worth Words: A ViT Backbone for Diffusion Models
文中首次使用U-Net建模score-based model (即diffusion model),后续DDPMADMImagen等许多工作对U-Net进行了一系列改进。目前,绝大多数扩散概率模型的论文依然使用U-Net作为主干网络。ViT在各种视觉任务中显示出了前景,而基于CNN的U-Net在扩散模型中仍然占主导地位。论文设计了一种简单通用的基于ViT的架构(命名为U-ViT),用于使用扩散模型生成图像。原创 2023-10-10 21:55:10 · 2557 阅读 · 0 评论 -
【NeurIPS 2023】Toward Understanding Generative Data Augmentation
生成式数据扩增通过条件生成模型生成新样本来扩展数据集,从而提高各种学习任务的分类性能。然而,很少有人从理论上研究生成数据增强的效果。为了填补这一空白,论文在这种非独立同分布环境下构建了基于稳定性的通用泛化误差界。基于通用的泛化界,论文进一步了探究了高斯混合模型和生成对抗网络的学习情况。在这两种情况下,论文证明了,虽然生成式数据增强并不能享受更快的学习率,但当训练集较小时,它可以在一个常数的水平上提高学习保证,这在发生过拟合时是非常重要的。转载 2023-10-03 16:34:24 · 2592 阅读 · 0 评论 -
【TGRS 2023】RingMo: A Remote Sensing Foundation ModelWith Masked Image Modeling
深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的是利用ImageNet预训练模型来处理指定任务的 RS 数据。然而,存在自然场景与RS场景之间的领域差距,以及 RS模型泛化能力差 等问题。开发具有通用 RS 特征表示的基础模型是有意义的。由于有大量未标记的数据可用,自监督方法在遥感方面比全监督方法具有更大的发展意义。然而,目前大多数自监督方法都使用 对比学习,其性能对数据增强、附加信息以及正负对的选择很敏感。本文利用。原创 2023-10-25 22:09:18 · 2429 阅读 · 0 评论 -
【ICCV 2023】EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
高分辨率密集预测得到越来越多的应用,如计算摄影、自动驾驶等。然而,巨大的计算成本使得在硬件设备上部署最先进的高分辨率密集预报模型变得困难。本文提出EfficientViT,一个新的高分辨率视觉模型家族,具有新颖的多尺度线性特性。不同于现有的高分辨率密集预测模型依赖于大量的softmax注意力、硬件低效的大内核卷积或复杂的拓扑结构来获得良好的性能,多尺度线性注意力只需轻量级和硬件高效的操作就可以实现全局感受野和多尺度学习(高分辨率密集预测的两个理想特征)。原创 2023-11-02 20:30:49 · 3269 阅读 · 1 评论 -
【CVPR 2023】EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
Vision Transformer由于其高度的建模能力而取得了巨大的成功。然而,它们的卓越性能伴随着沉重的计算代价,不适合于实时应用。本文提出了一个高速ViT,即EfficientViT。论文发现,现有的Transformer模型的速度通常受到访存效率低的操作的限制,尤其是在MHSA中的张量重塑和逐元素函数。因此,论文设计了一种新的三明治布局的构建块,即在有效的FFN层之间使用单个内存受限的MHSA,在增强通道通信的同时提高了访存效率。此外,注意力图在头部之间有很高的相似性,导致计算冗余。原创 2023-10-03 11:15:27 · 4990 阅读 · 1 评论 -
【推荐系统】多任务学习模型
介绍一些多任务学习模型了解是如何处理多任务分支的。如ESSM,MMoE,PLE,DSSM,GateNet,GemNN。原创 2023-10-03 09:24:52 · 3401 阅读 · 0 评论 -
【ECCV2022】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
文如题名,本文使用纯Transformer构建Unet网络,用于医学图像分割。本文用Swin Transformer替换Unet全部结构,构建出Swin-UNet。原创 2023-08-22 21:04:49 · 3402 阅读 · 0 评论 -
【ICCV2021】Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
PVT 把金字塔结构引入到Transformer中,使其可以无缝接入各种下游任务。简单调整Multi-Head Attention,提出spatial reduction attention。本文仿照CNNs中常见的金字塔结构,改进原始的Transformer,划分多个stage,每个stage的长宽减半,通道维度增加,再把多个stage进行叠加。以应用于分类、检测、分割等任务。原创 2023-08-22 19:36:47 · 2831 阅读 · 0 评论 -
【ICCV2023】Adaptive Frequency Filters As Efficient Global Token Mixers
最近的vision transformer、大核CNN和MLP由于其在全局范围内的有效信息融合,在视觉任务中取得了显著的成功。然而,由于自注意机制、大内核或全连接层的高昂计算成本,它们的高效部署,特别是在移动设备上的高效部署仍然面临着值得注意的挑战。这项工作,将传统的卷积定理应用于深度学习,以解决这一问题,并揭示自适应频率滤波器可以作为有效的全局令牌混频器。基于此,论文提出了自适应频率滤波(AFF)令牌混频器:Adaptive Frequency Filtering token mixer。原创 2023-08-21 10:10:34 · 3309 阅读 · 2 评论 -
【ICCV2023】Robustifying Token Attention for Vision Transformers
Vision Transformer在图像分类等任务中表现出色,但在面对常见的图像扰动(如噪声或模糊)时,其性能会显著下降。为此,论文对ViT的关键组成部分——自注意力机制进行研究分析,发现当前的视觉transformer模型在自注意力机制中存在"token overfocusing"的问题,即注意力机制过度依赖于少数重要token。然而这些token对图像扰动非常敏感。Token-aware Average Pooling(TAP)和Attention Diversification Loss(ADL)原创 2023-08-28 22:33:24 · 2807 阅读 · 0 评论 -
SAM(Segment Anything)大模型论文汇总
SAM大模型论文汇总原创 2023-08-01 21:02:42 · 5208 阅读 · 0 评论 -
【图像分类】CNN + Transformer 结合系列.4
介绍两篇利用Transformer做图像分类的论文:CoAtNet(NeurIPS2021),ConvMixer(ICLR2022)。CoAtNet结合CNN和Transformer的优点进行改进,ConvMixer则patch的角度来说明划分patch有助于分类。原创 2023-08-09 16:23:26 · 6289 阅读 · 0 评论 -
【轻量化网络】MobileNet系列
论文:https://arxiv.org/abs/1704.04861代码:解读:【图像分类】2017-MobileNetV1 CVPR_說詤榢的博客-CSDN博客 论文:https://arxiv.org/abs/1801.04381代码:https://github.com/d-li14/mobilenetv2.pytorch解读:【图像分类】2018-MobileNetV2_[18]sandler m,howard a,zhu m,et al. mobilenetv2: i_說詤榢的博客-CSDN博客原创 2023-09-09 16:25:23 · 2682 阅读 · 0 评论 -
【图像分类】CNN+Transformer结合系列.2
介绍几篇利用CNN+Transformer实现图像分类的论文:CMT(CVPR2022),MaxViT(ECCV2022),MaxViT(ECCV2022),MPViT(CVPR2022)。主要是说明Transformer的局限性,然后利用CNN的优势去弥补和结合。原创 2023-07-28 17:42:01 · 7127 阅读 · 0 评论 -
【图像分类】CNN+Transformer结合系列.3
介绍两篇图像分类的论文:ResMLP(arXiv2305),MetaFormer(CVPR2022),两者都与Transformer有关系,前者基于transformer结构的特点设计ResMLP,后者认为宏观架构才是Transformer成功的原因并设计一个简单的PoolFormer结构。原创 2023-07-31 13:17:35 · 6255 阅读 · 0 评论 -
【arXiv2306】CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection
知识蒸馏(KD)已被验证为一种有效的学习压缩对象检测器的模型压缩技术。现有的最先进的目标检测KD方法大多基于特征模拟,通常观察到这比预测模拟更好。本文发现,GT信号和蒸馏目标之间的优化目标不一致是预测模拟效率低下的关键原因。为了缓解这个问题,论文提出一种简单而有效的蒸馏机制 CrossKD,它将学生模型检测头的中间特征传递给教师模型检测头,并强制使交叉头的预测与教师模型的预测保持一致。原创 2023-08-05 20:07:37 · 3241 阅读 · 3 评论 -
【arXiv2306】1M parameters are enough? A lightweight CNN-based model for medical image segmentation
卷积神经网络(CNNs)和基于Transformer的模型由于能够提取图像的高级特征和捕捉图像的重要方面而被广泛应用于医学图像分割。然而,在对高精度的需求和对低计算成本的期望之间往往存在权衡。具有更高参数的模型理论上可以获得更好的性能,但也会导致更高的计算复杂性和更高的内存使用率,因此实现起来并不实用。本文寻找一种轻量级的基于U-Net的模型,它可以保持不变,甚至实现更好的性能,即U-Lite。基于深度可分离卷积的原理设计了U-Lite,既可以利用细胞神经网络的强度,又可以减少大量的计算参数。原创 2023-07-25 19:44:21 · 3366 阅读 · 0 评论 -
【ICCV2023】ARS-DETR: Aspect Ratio Sensitive Oriented Object Detection with Transformer
现有的目标检测方法通常使用度量AP50来度量模型的性能。论文认为AP50的角度偏差公差较大,本质上不适合旋转目标检测。因此,论文提倡使用高精度度量,如AP75,来衡量模型的性能。(论文的检测器在AP75上效果比较好,在AP50上效果不行)本文提出了基于Transformer的高宽比敏感的旋转目标探测器,称为ARS-DETR,它在高精度面向目标检测中具有竞争力的性能。提出了一种新的角度分类方法,称为高宽比感知圆光滑标签(AR-CSL),以更合理的方式平滑角度标签,并丢弃之前工作中引入的超参数(如CSL)。原创 2023-07-25 16:25:10 · 3667 阅读 · 0 评论 -
【ICCV2023】Scale-Aware Modulation Meet Transformer
本文提出了一种新的视觉变换器——尺度感知调制变换器(Scale-Aware Modulation Transformer, SMT),通过将CNN和ViT相结合,可以有效地处理各种下游任务。多头混合卷积(MHMC)模块,该模块可以捕捉多尺度特征并扩展感受野。规模感知聚合(SAA)模块,该模块重量轻但有效,能够实现不同头部的信息融合。通过利用这两个模块,卷积调制得到了进一步增强。原创 2023-07-25 10:06:43 · 4649 阅读 · 0 评论 -
【图像分类】CNN + Transformer 结合系列.1
介绍三篇结合使用CNN+Transformer进行学习的论文:CvT(ICCV2021),Mobile-Former(CVPR2022),SegNetr(arXiv2307).原创 2023-07-24 16:58:54 · 9784 阅读 · 0 评论 -
ResNet网络结构
介绍resnet网络结构和代码原创 2023-06-19 23:52:33 · 2759 阅读 · 0 评论 -
【IJCAI2022】Uncertainty-Guided Pixel Contrastive Learning for Semi-Supervised Medical Image Segmentat
论文将对比学习引入半监督分割,并提出了一种新的不确定性引导的半监督医学图像分割像素对比学习方法。具体来说,为每个未标记的图像构建一个不确定性图,然后重新移动不确定性图中的不确定性区域,以降低噪声采样的可能性。不确定性图由精心设计的一致性学习机制确定,该机制通过鼓励来自两个不同解码器的一致性网络输出来生成对未标记数据的全面预测。此外,论文认为由图像编码器学习的有效全局表示对于不同的几何变换应该是等变的,于是构造了一个等变对比损失来增强编码器的全局表示学习能力。原创 2023-11-26 18:10:59 · 992 阅读 · 0 评论 -
【arXiv2303】Learning with Explicit Shape Priors for Medical Image Segmentation
基于UNet的网络在医学图像分割领域逐步占据主导地位。然而,卷积神经网络(CNNs)面临两个限制:CNN感受野有限,无法对器官或组织的长期依赖或全局关系进行建模。分割掩码很大程度上依赖于最终分割头的训练。现有的方法不能很好地同时解决这两个限制。因此,本文提出了一种新的形状先验模块(SPM),它可以引入形状先验来提高基于UNet的模型的分割性能。显式形状先验由全局形状先验和局部形状先验组成。具有粗略形状表示的全局形状先验为网络提供了对全局上下文建模的能力。局部形状先验具有更精细的形状信息,可以作原创 2023-06-12 22:24:13 · 3901 阅读 · 1 评论 -
【MICCAI2023】Self-aware and Cross-sample Prototypical Learning for Semi-supervised Medical Image Segm
在半监督医学图像分割中,一致性学习表现得非常重要,因为它能够利用有限的注释数据和丰富的未注释数据。但其有效性和效率受到预测多样性和训练稳定性的挑战,而这些往往被现有研究所忽视。同时,用于训练的有限的标记数据往往不足以形成伪标签的类内紧性和类间差异。为解决上述问题,本文提出了一种自感知和跨样本原型学习方法(SCP-Net),通过利用来自多个输入的更广泛的语义信息来增强一致性学习中预测的多样性。引入了一种自感知的一致性学习方法,利用未标记数据来提高每个类中伪标签的紧凑性。原创 2023-06-12 01:42:14 · 3119 阅读 · 0 评论 -
【图像任务】Transformer系列.3
本文介绍3篇改进Transformer以实现不同图像任务的工作:少样本医学图像分割CAT-Net(arXiv2023),高效图像重建等任务GRL(CVPR2023),轻量视觉Transformer中的局部信息思考CloFormer(arXiv2023)。原创 2023-06-13 23:24:30 · 3744 阅读 · 2 评论 -
【IPMI 2023】Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation
本文提出一种新颖的网络架构CTO,即Convolution,Transformer和Operator,通过结合卷积神经网络、视觉 Transformer 和显式边界检测操作,实现高精度的图像分割,并在准确性和效率之间保持最佳平衡。CTO 遵循标准的编码器-解码器分割范式,其中编码器网络采用流行的 CNN 骨干结构来捕捉局部语义信息,并使用轻量级的 ViT 辅助网络来整合远距离依赖关系。为了增强边界的学习能力,本文进一步提出了一种基于边界引导的解码器网络,利用专用边界检测操作得到的边界掩模作为显式监原创 2023-06-12 11:53:18 · 2903 阅读 · 5 评论 -
【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer
本文提出了一种名为Adaptive Frequency Transformer(AFFormer)的语义分割架构。AFFormer采用并行架构来利用原型表示(prototype representations)作为特定可学习的局部描述,其取代了解码器并在高分辨率特征上保留丰富的图像语义。虽然删除了解码器能够压缩大部分的推理计算,但并行架构的精度仍受到低计算资源的限制。因此,我们采用异构运算符(CNN和Vision Transformer)进行像素嵌入(pixel embedding)和原型表示。转载 2023-06-13 23:20:24 · 2761 阅读 · 0 评论 -
【CVPR2023】Conflict-Based Cross-View Consistency for Semi-Supervised Semantic Segmentation
半监督语义分割(SSS)可以减少对大规模全注释训练数据的需求。现有方法处理伪标记时常常会受到确认偏差的影响,这可以通过联合训练框架来缓解。目前基于联合训练的SSS方法依赖于手工制作的每个扰动来防止不同的子网坍塌,但人为扰动难以得到最优解。本文提出一种新的基于冲突的跨视图一致性(CCVC)方法,该方法基于两个分支的联合训练框架,旨在强制两个子网从不相关的视图中学习信息特征。首先提出一种新的跨视图一致性(CVC)策略,该策略通过引入特征差异损失来鼓励两个子网从同一输入中学习不同的特征,同时这些不连续的特征有望生原创 2023-06-11 11:02:10 · 2452 阅读 · 0 评论 -
【CVPR2021】CPS: Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision
论文为半监督语义分割任务设计了一种非常简洁而又性能很好的算法:cross pseudo supervision (CPS)。训练时,使用两个相同结构、但是不同初始化的网络,添加约束使得两个网络对同一样本的输出是相似的。具体来说,当前网络产生的one-hot pseudo label,会作为另一路网络预测的目标,这个过程用cross entropy loss监督。原创 2023-06-09 18:04:50 · 2201 阅读 · 0 评论 -
【FDA】图像通过傅里叶变换改变光谱风格,实现域自适应
光谱转移:在不改变语义内容的情况下,将源图像映射到目标“样式”。随机采样的目标图像通过将源图像频谱的低频分量与其自身频谱进行交换来提供样式。结果“目标风格的源图像”在感知上显示了更小的域差距,并改进了语义分割的迁移学习原创 2023-06-09 01:17:16 · 1836 阅读 · 0 评论