- 博客(66)
- 收藏
- 关注
原创 图像分割(十)——Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation
近年来,参考图像分割(Referring Image Segmentation)引起了人们的广泛关注。以往的方法都是在网络解码端实现语言和视觉的多模态融合。语言特征分别与各尺度的视觉特征相互作用,忽视了语言对多尺度视觉特征的连续引导。本文提出了一种编码器融合网络(EFN),该网络将视觉编码器转化为多模态特征学习网络,并利用语言逐步细化多模态特征。此外,EFN中还嵌入了一种协同注意机制,实现了多模态特征的并行更新,从而促进了跨模态信息在语义空间中的一致表示。
2024-09-27 17:35:21 906
原创 图像分割(九)—— Mask Transfiner for High-Quality Instance Segmentation
两阶段和基于查询的实例分割方法取得了显著的效果。然而,它们的分割掩模仍然非常粗糙。在本文中,我们提出了掩模转换器的高质量和高效的实例分割。我们的掩模变换器不是在规则的密集张量上工作,而是分解并将图像区域表示为四叉树。我们的基于转换器的方法只处理检测到容易出错的树节点,并并行地自纠正它们的错误。虽然这些稀疏像素只占总数的一小部分,但它们对最终的掩模质量至关重要。这使得掩码转换器能够以较低的计算成本预测高度准确的实例掩码。
2024-09-27 17:24:32 914
原创 图像分割(八)——Transformer-Based Decoder Designs for Semantic Segmentation on Remotely Sensed Images
Transformer 在一些自然语言处理(NLP)任务和图像处理任务中都取得了显著的成就。在此,我们提出了一个深度学习(DL)模型,它能够通过两种方式改进语义分割网络。首先,该模型利用视觉变压器(ViT)下的预训练好的Swin Transformer(SwinTF)作为骨干,该模型通过在预先训练好的编码器上连接任务层来赋予下游任务的权重。其次,将解码器设计应用于我们的DL网络,采用U-Net、金字塔场景解析(PSP)网络和特征金字塔网络(FPN)方法,进行像素级分割。
2024-09-27 16:45:03 673
原创 图像分割(五)——Multispectral Fusion Transformer Network for RGB-Thermal Urban Scene Semantic Segmentation
语义分割在自动驾驶汽车中起着至关重要的作用。融合RGB图像的丰富细节和热成像的光照鲁棒性有望提升RGB-T语义分割的性能。在多光谱特征融合中,目前的主要方法在RGB-T的相关性和互补性表征方面效果较差。为了生成鲁棒的跨光谱融合特征,我们提出了一种多光谱融合Transformer网络(MFTNet)。具体来说,我们首先设计了一个MFT模块,用于处理多光谱融合编码器中RGB-T的光谱内相关性和光谱间互补性
2024-09-27 16:23:13 847
原创 Zero-Sharpen: A universal pansharpening method across satellites
全色锐化是一种将高分辨率全色图像 (HRPAN) 和低分辨率多光谱图像 (LRMS) 结合起来生成高分辨率多光谱图像 (HRMS) 的技术。传统方法基于给定的图像对进行锐化,但由于采用了尺度变化的线性映射假设,其性能受到限制。现有的基于深度学习的方法可以基于大规模训练数据建立任意的非线性锐化函数。
2024-09-15 16:50:05 644
原创 ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting
基于扩散的图像超分辨率(SR)方法由于需要数百甚至数千个采样步骤,导致推理速度较低。现有的加速采样技术不可避免地会在一定程度上牺牲性能,导致SR结果过于模糊。为了解决这个问题,我们提出了一种新颖有效的SR扩散模型,该模型显著减少了扩散步骤的数量,从而消除了推理过程中对后加速的需求及其相关的性能下降。
2024-09-15 16:48:33 897
原创 一些可能很有用的矩阵知识
酉矩阵是一个复数矩阵,满足其转置的共轭等于其逆矩阵。当一个向量通过一个酉矩阵进行线性变换时,它的模长保持不变,只是发生了旋转和缩放。这意味着如果原始向量服从正态分布,变换后的向量仍将服从相同的正态分布。对于 y 的概率密度函数,首先,计算y 的均值。这与正态分布的概率密度函数形式相同,只是参数变为。现在,我们有一个酉矩阵U,将向量。由于酉矩阵 U 具有单位行列式(服从正态分布且协方差矩阵是。也服从正态分布,其均值为。服从正态分布且期望是。,现在,我们可以得到。
2024-09-03 23:37:51 1037
原创 Probability-based Global Cross-modal Upsampling for Pansharpening
全色锐化(Pansharpening)是遥感图像处理中的一个关键预处理步骤。虽然深度学习(DL)方法在这一任务中表现良好,但目前这些方法中使用的上采样方法仅利用了低分辨率多光谱(LRMS)图像中每个像素的局部信息,却忽略了该图像的全局信息以及指导用的全色(PAN)图像的跨模态信息,从而限制了性能的提升。为了解决这一问题,本文提出了一种基于概率的全局跨模态上采样(PGCU)方法用于全色锐化。
2024-09-03 19:05:53 1256
原创 SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process
在这篇论文中,我们探讨了一种提高不同分割模型产生的目标掩模质量的主要方法。我们提出了一种名为SegRefiner的模型无关的解决方案,它通过将分割细化解释为数据生成过程,从而对这个问题提供了一个新颖的视角。因此,细化过程可以通过一系列去噪扩散步骤顺利实现。具体来说,SegRefiner以粗糙掩模作为输入,并使用离散扩散过程对其进行细化。通过为每个像素预测标签和相应的状态转移概率,SegRefiner以条件去噪的方式逐渐细化噪声掩模。
2024-09-03 17:17:15 347
原创 The Manifold Hypothesis for Gradient-Based Explanations
梯度驱动的解释算法何时能够提供与人类感知一致的解释?我们提出了一个标准:特征归因需要与数据流形的切空间对齐。
2024-09-03 00:07:24 810
原创 GTP-PNet: A residual learning network based on gradient transformation prior for pansharpening
Pansharpening的目标是融合低分辨率多光谱图像和高分辨率全色(PAN)图像,生成高分辨率多光谱(HRMS)图像。
2024-09-01 12:25:41 759
原创 SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE
虽然人们常说解偶表示 (disentangled representations) 对于下游任务有益,但目前对其的经验和理论理解有限。在这项工作中,我们提供了证据表明,结合稀疏基预测器的解偶表示改善了泛化性能。在多任务学习的背景下,我们证明了一个新的可辨识的 (identifiability) 结果,它提供了最大稀疏基预测器产生解偶表示的条件。在这一理论结果的启发下,我们提出了一种基于稀疏促进的双层优化问题的实际学习解偶表示的方法。最后,我们探索了基于群lasso多类SVM基预测器的这种算法的元学习版本,并
2024-01-25 19:57:06 1100
原创 DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior
我们提出了DiffBIR,它利用预训练的文本到图像扩散模型来解决盲图像恢复问题。我们的框架采用两阶段pipeline。在第一阶段,我们在多种退化中预训练恢复模块,以提高现实场景中的泛化能力。第二阶段利用潜在扩散模型的生成能力,实现真实的图像恢复。具体来说,我们引入了一个injective modulation 子网络——LAControlNet进行微调,而预训练的Stable Diffusion是为了保持其生成能力。
2024-01-25 19:56:30 2166
原创 DIFFUSION POSTERIOR SAMPLING FOR GENERAL NOISY INVERSE PROBLEMS
在最近的研究中,扩散模型被作为强大的生成逆问题求解器,因其高质量的重建和结合现有迭代求解器的便利性。然而,大多数研究侧重于在无噪声设置中解决简单的线性逆问题,这在很大程度上低估了真实世界问题的复杂性。在这项工作中,我们通过后验采样的逼近,将扩散求解器有效地扩展到处理一般的带噪声(非)线性逆问题。有趣的是,所得到的后验采样方案是扩散采样与流形约束梯度的混合版本,而无需严格的测量一致性投影步骤,在噪声环境中相比先前的研究具有更理想的生成路径。
2023-11-29 19:56:07 1639
原创 A Mathematical Framework for Transformer Circuits—(一)
transformer数学理解理论
2023-09-03 16:51:00 1232 1
原创 FcaNet: Frequency Channel Attention Networks
注意力机制,尤其是通道注意力,在计算机视觉领域取得了巨大的成功。许多研究集中于如何设计有效的通道注意力机制,而忽略了一个根本问题,即通道注意力机制使用标量来表示通道,这是由于大量信息丢失而带来的困难。在这项工作中,我们从不同的角度出发,利用频率分析将信道表示问题视为一个压缩过程。基于频率分析,我们从数学上证明了传统的全局平均池是频域特征分解的特例。通过证明,我们自然地在频域推广了信道注意力机制的压缩,并提出了多光谱信道注意力的方法,称为FcaNet。FcaNet简单但有效。
2023-08-03 13:25:12 902
原创 对比学习Spectrum Feature Augmentation in Graph Contrastive Leanring and Beyond
对比学习
2023-08-02 13:38:59 362
原创 SpectralFormer: Rethinking Hyperspectral Image Classification With Transformers
HSI分类
2023-04-09 00:25:37 1228
原创 Eformer: Edge Enhancement based Transformer for Medical Image Denoising
Transformer去噪
2022-11-22 22:40:37 812
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人