自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 收藏
  • 关注

原创 论文阅读——Is Noise Conditioning Necessary for Denoising Generative Models?

人们普遍认为,噪声调节对于去噪扩散模型的成功运行是不可或缺的。本研究对这一观点提出了挑战。受盲图像去噪研究的启发,我们研究了在没有噪声调节的情况下各种基于去噪的生成模型的表现。令人惊讶的是,大多数去噪生成模型在移除噪声调节后,性能仅轻微下降,甚至部分任务表现更好。我们对去除噪声调节所引起的误差进行了理论分析,并证明我们的分析与实验观察结果一致,进一步提出了一种无噪声调节的模型,该模型在CIFAR-10数据集上达到了2.23的FID(Fréchet Inception Distance)分数,显

2025-03-20 22:21:45 906 1

原创 论文阅读——高光谱与多光谱图像融合:通过自监督表示实现任意分辨率

低分辨率高光谱图像(LR-HSI)与高分辨率多光谱图像(HR-MSI)的融合已成为实现高光谱图像超分辨率(SR)的有效技术。以往的研究主要集中在通过利用适当的图像先验和从潜在高光谱图像(HR-HSI)与观测图像之间的差异计算出的似然,来估计潜在高分辨率高光谱图像的后验分布。在各种先验中,低秩性通过矩阵分解在保留潜在高光谱图像特征方面表现突出。

2025-03-20 22:21:00 943 1

原创 论文阅读——Variational Zero-Shot Multispectral Pansharpening

全色锐化的目标是通过融合低空间分辨率的多光谱图像(LRMS)和全色图像(PAN)来生成高空间分辨率的多光谱图像(HRMS)。这项任务最具挑战性的问题在于,只有待融合的LRMS和PAN图像是可用的,而现有的基于深度学习(DL)的方法由于依赖大量训练对而不适合解决此类问题。传统的基于变分优化(VO)的方法非常适合解决此类问题。这些方法侧重于为优化问题精心设计显式的融合规则和正则化项,这些规则和正则化项基于研究人员对图像关系和图像结构的发现。

2025-03-20 22:19:55 682 1

原创 论文阅读——Deep Variational Network for Blind Pansharpening

大多数现有方法在训练过程中主要只考虑一种固定的退化情况。因此,当测试数据的退化情况未知(盲)且与训练数据不同时,这些方法的性能可能会显著下降,这在实际应用中很常见。为了解决这个问题,我们提出了一种用于盲全色锐化的深度变分网络,称为VBPN,它将退化估计和图像融合整合到一个完整的贝叶斯框架中。

2025-03-20 22:18:52 1106 1

原创 Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning

我们提出了一种新的基于频率的自监督学习(SSL)方法,显著提高了预训练的效果。以往在这一方向上的工作会屏蔽输入图像中的预定义频率,并采用重建损失来进行模型预训练。虽然取得了一些有希望的结果,但这种实现方式在我们的论文中指出了两个基本局限。首先,使用预定义频率忽略了图像频率响应的可变性。其次,通过频率过滤后的图像进行预训练后,所得模型在微调时需要相对更多的数据来适应自然图像。为了克服这些缺点,我们提出了基于傅里叶变换压缩的自知识蒸馏(FOLK)方法,整合了两个专门的理念。

2025-03-05 17:46:08 860

原创 ADDP: Learning General Representations For Image Recognition And Generation

图像识别和图像生成长期以来都是独立发展的。随着近期通用表示学习的趋势,开发适用于识别和生成任务的通用表示也得到了推动。然而,目前初步的尝试主要集中在生成任务的性能上,但在识别任务上的表现仍然较差。这些方法通常在矢量化(VQ)空间中建模,而先进的识别方法则以像素作为输入。(1)像素作为输入对识别任务至关重要;(2)VQ标记作为重建目标对生成任务有益。这些观察促使我们提出了一种交替去噪扩散过程(ADDP),在单一表示学习框架内整合这两个空间。

2025-03-05 17:44:15 578

原创 Diffenc: Variational Diffusion With A Learned Encoder

扩散模型可以看作是层次化变分自编码器(VAE),并具有两项改进:生成过程中的条件分布参数共享,以及将损失计算为层次结构中独立项的高效计算。我们对扩散模型进行了两项改进,这些改进在保留上述优势的同时增加了模型的灵活性。首先,我们在扩散过程中引入了一个依赖于数据和深度的均值函数,从而导致修改后的扩散损失。我们提出的框架 DiffEnc 在 CIFAR-10 数据集上显著提高了似然度。其次,我们将逆编码器过程和生成过程中的噪声方差比率设置为一个自由权重参数,而不是固定为1。

2025-03-05 17:43:06 956

原创 A Variational Perspective On Solving Inverse Problems With Diffusion Models

扩散模型已成为视觉领域基础模型的重要支柱之一。其关键应用之一是通过单一的扩散先验,不用为每个任务重新训练,就能普遍解决不同的下游逆任务。大多数逆任务可以表述为给定测量(例如,掩码图像)推断数据(例如,完整图像)的后验分布。然而,由于扩散过程的非线性和迭代性质,这在扩散模型中是具有挑战性的,因为后验分布是不可处理的。为应对这一挑战,我们提出了一种变分方法,旨在设计上逼近真实的后验分布。

2025-03-05 17:41:56 741

原创 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

提出了视觉自回归建模(VAR)[Visual AutoRegressive modeling],这是一种新的生成范式,将图像上的自回归学习重新定义为由粗到细的“下一个尺度预测”或“下一个分辨率预测”,不同于标准的光栅扫描“下一个像素预测”。这种简单直观的方法允许自回归(AR)变压器快速学习视觉分布,并具有良好的泛化能力。VAR模型的扩展表现出类似于LLMs的明确幂律扩展规律,线性相关系数接近-0.998,作为坚实的证据。VAR还展示了在下游任务中的零样本泛化能力,包括图像修补、外扩和编辑。

2025-01-14 10:19:17 1211

原创 Fourier Series Expansion Based Filter Parametrization for Equivariant Convolutions

目前的研究已经证明,等变卷积对许多类型的计算机视觉任务非常有帮助。最近,二维滤波器参数化技术在设计等变卷积方面发挥了重要作用,并且在利用图像的旋转对称性方面取得了成功。然而,当前的滤波器参数化策略仍然存在明显的缺点,其中最关键的问题在于滤波器表示的准确性问题。

2024-12-05 20:33:20 713

原创 Guiding a Diffusion Model with a Bad Version of Itself

在图像生成扩散模型中,主要关注的轴心是图像质量、结果的变化量以及结果与给定条件(例如类别标签或文本提示)的对齐程度。流行的无分类器指导方法使用无条件模型来指导条件模型,从而在提高提示对齐和图像质量的同时,减少了变化量。这些效果似乎本质上是纠缠在一起的,因此难以控制。

2024-12-05 20:31:39 997

原创 论文阅读——Pan-sharpening via conditional invertible neural network

在传统的基于深度学习的全色图像融合(pan-sharpening)方法中,一直存在着在不同通道之间协调输入的全色图像(PAN)和多光谱图像(MS)的挑战。现有方法常常受到光谱失真和纹理表现不足的困扰。为了解决这些局限性,我们提出了一种创新的约束式图像生成策略,专门针对全色图像融合任务。我们的方法采用了一种名为 PSCINN 的多尺度条件可逆神经网络,该网络能够在全色图像的指导下,将真实的多光谱图像转化为低分辨率的多光谱图像和一个潜变量。

2024-11-08 18:02:13 1409 1

原创 图像分割(十)——Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation

近年来,参考图像分割(Referring Image Segmentation)引起了人们的广泛关注。以往的方法都是在网络解码端实现语言和视觉的多模态融合。语言特征分别与各尺度的视觉特征相互作用,忽视了语言对多尺度视觉特征的连续引导。本文提出了一种编码器融合网络(EFN),该网络将视觉编码器转化为多模态特征学习网络,并利用语言逐步细化多模态特征。此外,EFN中还嵌入了一种协同注意机制,实现了多模态特征的并行更新,从而促进了跨模态信息在语义空间中的一致表示。

2024-09-27 17:35:21 1124

原创 gMLP:Pay Attention to MLPs--模型代码讲解

基于MLP-Mixer 的改进…

2024-09-27 17:32:49 1207

原创 图像分割(九)—— Mask Transfiner for High-Quality Instance Segmentation

两阶段和基于查询的实例分割方法取得了显著的效果。然而,它们的分割掩模仍然非常粗糙。在本文中,我们提出了掩模转换器的高质量和高效的实例分割。我们的掩模变换器不是在规则的密集张量上工作,而是分解并将图像区域表示为四叉树。我们的基于转换器的方法只处理检测到容易出错的树节点,并并行地自纠正它们的错误。虽然这些稀疏像素只占总数的一小部分,但它们对最终的掩模质量至关重要。这使得掩码转换器能够以较低的计算成本预测高度准确的实例掩码。

2024-09-27 17:24:32 1132

原创 图像分割(八)——Transformer-Based Decoder Designs for Semantic Segmentation on Remotely Sensed Images

Transformer 在一些自然语言处理(NLP)任务和图像处理任务中都取得了显著的成就。在此,我们提出了一个深度学习(DL)模型,它能够通过两种方式改进语义分割网络。首先,该模型利用视觉变压器(ViT)下的预训练好的Swin Transformer(SwinTF)作为骨干,该模型通过在预先训练好的编码器上连接任务层来赋予下游任务的权重。其次,将解码器设计应用于我们的DL网络,采用U-Net、金字塔场景解析(PSP)网络和特征金字塔网络(FPN)方法,进行像素级分割。

2024-09-27 16:45:03 764

原创 图像分割(五)——Multispectral Fusion Transformer Network for RGB-Thermal Urban Scene Semantic Segmentation

语义分割在自动驾驶汽车中起着至关重要的作用。融合RGB图像的丰富细节和热成像的光照鲁棒性有望提升RGB-T语义分割的性能。在多光谱特征融合中,目前的主要方法在RGB-T的相关性和互补性表征方面效果较差。为了生成鲁棒的跨光谱融合特征,我们提出了一种多光谱融合Transformer网络(MFTNet)。具体来说,我们首先设计了一个MFT模块,用于处理多光谱融合编码器中RGB-T的光谱内相关性和光谱间互补性

2024-09-27 16:23:13 982

原创 Zero-Sharpen: A universal pansharpening method across satellites

全色锐化是一种将高分辨率全色图像 (HRPAN) 和低分辨率多光谱图像 (LRMS) 结合起来生成高分辨率多光谱图像 (HRMS) 的技术。传统方法基于给定的图像对进行锐化,但由于采用了尺度变化的线性映射假设,其性能受到限制。现有的基于深度学习的方法可以基于大规模训练数据建立任意的非线性锐化函数。

2024-09-15 16:50:05 730

原创 ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting

基于扩散的图像超分辨率(SR)方法由于需要数百甚至数千个采样步骤,导致推理速度较低。现有的加速采样技术不可避免地会在一定程度上牺牲性能,导致SR结果过于模糊。为了解决这个问题,我们提出了一种新颖有效的SR扩散模型,该模型显著减少了扩散步骤的数量,从而消除了推理过程中对后加速的需求及其相关的性能下降。

2024-09-15 16:48:33 1392

原创 一些可能很有用的矩阵知识

酉矩阵是一个复数矩阵,满足其转置的共轭等于其逆矩阵。当一个向量通过一个酉矩阵进行线性变换时,它的模长保持不变,只是发生了旋转和缩放。这意味着如果原始向量服从正态分布,变换后的向量仍将服从相同的正态分布。对于 y 的概率密度函数,首先,计算y 的均值。这与正态分布的概率密度函数形式相同,只是参数变为。现在,我们有一个酉矩阵U,将向量。由于酉矩阵 U 具有单位行列式(服从正态分布且协方差矩阵是。也服从正态分布,其均值为。服从正态分布且期望是。,现在,我们可以得到。

2024-09-03 23:37:51 1153

原创 Probability-based Global Cross-modal Upsampling for Pansharpening

全色锐化(Pansharpening)是遥感图像处理中的一个关键预处理步骤。虽然深度学习(DL)方法在这一任务中表现良好,但目前这些方法中使用的上采样方法仅利用了低分辨率多光谱(LRMS)图像中每个像素的局部信息,却忽略了该图像的全局信息以及指导用的全色(PAN)图像的跨模态信息,从而限制了性能的提升。为了解决这一问题,本文提出了一种基于概率的全局跨模态上采样(PGCU)方法用于全色锐化。

2024-09-03 19:05:53 1335

原创 SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process

在这篇论文中,我们探讨了一种提高不同分割模型产生的目标掩模质量的主要方法。我们提出了一种名为SegRefiner的模型无关的解决方案,它通过将分割细化解释为数据生成过程,从而对这个问题提供了一个新颖的视角。因此,细化过程可以通过一系列去噪扩散步骤顺利实现。具体来说,SegRefiner以粗糙掩模作为输入,并使用离散扩散过程对其进行细化。通过为每个像素预测标签和相应的状态转移概率,SegRefiner以条件去噪的方式逐渐细化噪声掩模。

2024-09-03 17:17:15 435

原创 The Manifold Hypothesis for Gradient-Based Explanations

梯度驱动的解释算法何时能够提供与人类感知一致的解释?我们提出了一个标准:特征归因需要与数据流形的切空间对齐。

2024-09-03 00:07:24 881

原创 GTP-PNet: A residual learning network based on gradient transformation prior for pansharpening

Pansharpening的目标是融合低分辨率多光谱图像和高分辨率全色(PAN)图像,生成高分辨率多光谱(HRMS)图像。

2024-09-01 12:25:41 830

原创 概率基础——矩阵正态分布matrix normal distribution

矩阵正态分布

2024-07-01 00:29:34 2094

原创 SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE

虽然人们常说解偶表示 (disentangled representations) 对于下游任务有益,但目前对其的经验和理论理解有限。在这项工作中,我们提供了证据表明,结合稀疏基预测器的解偶表示改善了泛化性能。在多任务学习的背景下,我们证明了一个新的可辨识的 (identifiability) 结果,它提供了最大稀疏基预测器产生解偶表示的条件。在这一理论结果的启发下,我们提出了一种基于稀疏促进的双层优化问题的实际学习解偶表示的方法。最后,我们探索了基于群lasso多类SVM基预测器的这种算法的元学习版本,并

2024-01-25 19:57:06 1129

原创 DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

我们提出了DiffBIR,它利用预训练的文本到图像扩散模型来解决盲图像恢复问题。我们的框架采用两阶段pipeline。在第一阶段,我们在多种退化中预训练恢复模块,以提高现实场景中的泛化能力。第二阶段利用潜在扩散模型的生成能力,实现真实的图像恢复。具体来说,我们引入了一个injective modulation 子网络——LAControlNet进行微调,而预训练的Stable Diffusion是为了保持其生成能力。

2024-01-25 19:56:30 2464

原创 DIFFUSION POSTERIOR SAMPLING FOR GENERAL NOISY INVERSE PROBLEMS

在最近的研究中,扩散模型被作为强大的生成逆问题求解器,因其高质量的重建和结合现有迭代求解器的便利性。然而,大多数研究侧重于在无噪声设置中解决简单的线性逆问题,这在很大程度上低估了真实世界问题的复杂性。在这项工作中,我们通过后验采样的逼近,将扩散求解器有效地扩展到处理一般的带噪声(非)线性逆问题。有趣的是,所得到的后验采样方案是扩散采样与流形约束梯度的混合版本,而无需严格的测量一致性投影步骤,在噪声环境中相比先前的研究具有更理想的生成路径。

2023-11-29 19:56:07 1911 3

原创 VQGAN理论加代码一对一详解,小白向解析

VQGAN原理代码解读

2023-09-17 17:19:20 12253 6

原创 A Mathematical Framework for Transformer Circuits—(三)

transformer数学理论

2023-09-15 19:37:56 488

原创 A Mathematical Framework for Transformer Circuits—(二)

transformer数学理论框架

2023-09-15 18:30:27 404

原创 A Mathematical Framework for Transformer Circuits—(一)

transformer数学理解理论

2023-09-03 16:51:00 1673 3

原创 python爬虫实战零基础(3)——某云音乐

爬虫爬音乐

2023-08-25 19:32:26 5234 1

原创 Mac上传项目源代码到GitHub的修改更新

最近在学习把代码上传到github,这是一个关于怎样更新项目代码的教程。

2023-08-20 13:41:38 838

原创 python爬虫实战零基础(2)——网页图片

图片爬取零基础

2023-08-20 13:21:26 182

原创 对比学习损失—InfoNCE理论理解

对比学习损失函数

2023-08-18 23:09:00 11580 2

原创 python爬虫实战零基础(1)——网站小说

爬虫爬小说

2023-08-11 15:14:35 1427

原创 Multimodal Learning with Transformer: A Survey

综述自注意力的总结

2023-08-03 13:41:28 2244

原创 (三)运动估计的分数阶变分光流模型——2012

运动估计的分数阶变分光流模型

2023-08-03 13:40:25 336

原创 RAFT:Recurrent All-Pairs Field Transforms for Optical Flow

光流学习

2023-08-03 13:38:33 598

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除