自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 超详细!!!一文理解Diff-SFCT: A Diffusion Model withSpatial-Frequency Cross Transformer for MedicalImage

Diff-SFCT的医学图像分割框架,基于扩散模型(Diffusion Model)。它概述了现有大多数语义分割方法的局限性,强调了这些方法主要依赖监督学习和判别模型,虽然操作简便,但忽略了对数据底层分布的建模。Diff-SFCT的创新点在于,它将语义分割任务转变为一个生成问题,替代了传统的逐像素判别学习,通过潜在先验学习过程,生成更加精确的分割结果。这个框架使用了结合卷积神经网络(CNN)和Transformer的骨干网络,充分利用了CNN的局部感知能力和Transformer的全局信息建模能力。

2024-09-28 16:38:34 917

原创 超详细!!!一文带你理解MosaicFusion: Diffusion Models as Data Augmenters for LargeVocabulary Instance Segmenta

通过在每个区域同时运行扩散过程并使用不同的文本提示,MosaicFusion方法能够在单张图像中生成多个特定位置的对象。这种方法不仅提高了图像生成的多样性和质量,还能有效地扩展实例分割数据集,提升模型的性能。

2024-08-20 15:49:39 593

原创 超详细!!!一文理解Consistency models

本文的动机是提出一种能够直接将噪声映射到数据的模型,实现快速的一步生成,同时保留多步采样的能力,以便在需要时通过增加计算量来提升样本质量。最终,一致性模型可以实现快速的单步生成,同时保留多步采样的灵活性和高质量样本生成的能力。:使用数值ODE求解器和预训练的扩散模型生成PF ODE轨迹上的相邻点对,通过最小化这些点对的输出差异,将扩散模型的知识蒸馏到一致性模型中。:生成PF ODE轨迹上的相邻点对,通过最小化这些点对输出的差异,将扩散模型蒸馏为一致性模型,实现高质量的单步生成。

2024-07-13 10:55:52 934

原创 超详细!!!一文搞定!单目深度估计MiDas思想Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-Shot

文献的核心内容主要集中在通过混合多数据集来实现单目深度估计模型的稳健性和泛化能力,解决了单一数据集训练带来的局限性。该研究在理论创新和实验验证上都取得了显著成果,为单目深度估计领域提供了新的思路和方法。

2024-06-16 10:15:12 4909 1

原创 超详细!!!一文理解DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation

本文介绍了DiffusionDepth,一种新的单目深度估计方法,将该任务重新表述为去噪扩散过程。该模型通过单目视觉条件的引导,迭代地将随机深度分布精细化为详细的深度图,克服了生成模型应用于稀疏真值深度场景的局限性。实验结果表明,在KITTI和NYU-Depth-V2数据集上,DiffusionDepth达到了最新的性能。DiffusionDepth框架通过接收一个随机深度分布作为输入,利用视觉条件引导的迭代去噪过程,在潜在深度空间中逐步精细化深度估计。

2024-06-02 09:10:29 1263 1

原创 超详细解读!!!SQLdepth: Generalizable Self-Supervised Fine Structured Monocular Depth

例如,模型可以识别出更靠近摄像头的对象和更远离摄像头的对象,并且能够处理这些对象之间的空间关系,从而提供更为精确的深度预测。但在这里,是通过图像与其自身的比较来实现的,由于直接在高分辨率特征图上进行这种计算的计算复杂度非常高(O(h² × w²)),因此采用了一种更高效的方法。对象的建模:对于场景中的对象,使用一种紧凑型的视觉变换器(Vision Transformer, ViT),选择较大的补丁尺寸来提取粗粒度的对象查询。这种方法依赖于图像的梯度,用以判断图像的边缘强度,从而在边缘区域减少正则化的强度。

2024-05-20 21:21:07 1359 2

原创 超详细!!!一文理解High-Resolution Image Synthesis with Latent Diffusion Models

图像合成是计算机视觉领域内快速发展且计算需求巨大的一个分支。扩散模型(DM)通过将图像形成过程分解为一系列去噪自编码器的应用,已经在图像数据及其他领域的合成上达到了最先进水平。这些模型的一个独特之处在于其可引导机制,允许在不重新训练的情况下控制图像生成过程。然而,传统上直接在像素空间操作的扩散模型往往需要大量的GPU天数来优化,并且由于序列评估导致推理成本高昂。

2024-05-16 10:30:53 1749 2

原创 超强结合!!!ControlNet+扩散模型

ControlNet架构的目的:为大型预训练的文本到图像扩散模型添加空间条件控制功能。ControlNet的核心设计:锁定已有模型:ControlNet锁定了已经生产就绪的大型扩散模型,意味着这些模型的基本参数不再改变。重用编码层:使用这些模型已预训练的深层和稳健的编码层作为学习多样化条件控制的强大基础。特殊技术—零卷积:使用“零卷积”(即参数从零开始逐步增长的卷积层),以确保训练过程中不引入有害噪声,保护模型在微调过程中的稳定性。

2024-05-10 16:25:24 1602 1

原创 超新思路!!!基于扩散模型的单目深度估计和光流法

DDVM扩散模型在图像生成中的革新:高保真度和多样性:扩散模型已经在图像生成领域实现了高保真度和多样性,这表明它们可以生成接近真实世界的高质量图像。扩展到新的视觉任务:光流和单目深度估计:研究人员展示了这些模型在估计光流和单目深度方面的出色性能,这是计算机视觉中的两个重要任务。无需特定架构和损失函数:与传统方法不同,这些成果是在没有使用为这些任务专门设计的架构和损失函数的情况下实现的,显示了模型的通用性和强大能力。

2024-05-02 08:35:35 298 2

原创 经典!!单目深度估计方向整理--Digging Into Self-Supervised Monocular Depth Estimation

单目深度估计经典monodepth2。在本文中,我们提出了一系列改进,与竞争的自监督方法相比,这些改进共同导致了定量和定性的深度图改进。自我监督单目训练的研究通常探索越来越复杂的架构,损失函数和图像形成模型,所有这些最近都有助于缩小与全监督方法的差距。我们表明,一个令人惊讶的简单的模型,以及相关的设计选择,导致上级的预测。

2024-04-24 14:34:59 1641 1

原创 谷歌最新发布!!!单目深度估计提高泛化性能文章---Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

单目深度估计提高泛化性能新SOTA。不同场景的RGB和深度分布差异问题:问题描述: 室内和室外场景在RGB颜色和深度(距离)的分布上有很大差异,这使得使用统一的模型来处理这两种场景变得困难。解决策略: 文章提出使用对数尺度深度参数化,这种方法可以更好地处理不同深度尺度的变化,从而使模型能够适应室内外不同场景的深度分布。未知相机内参引起的深度尺度不确定性问题:问题描述: 在没有相机内部参数(如焦距和光圈大小)的情况下,估计出的深度尺度可能会出现偏差,这会影响深度估计的准确性。

2024-04-23 09:19:43 1568 1

原创 最新!!单目深度估计方向文献综述--Monocular Depth Estimation: A Thorough Review

一个是考虑人类深度感知的机制,另一个是包括各种深度学习方法。这篇论文是关于单目深度估计(Monocular Depth Estimation)的全面综述,由Vasileios Arampatzakis等人撰写。单目深度估计是指从二维图像中恢复三维场景的深度信息,这是一个在计算机视觉领域具有挑战性的问题。尽管已经有许多研究,但这个问题仍然是一个研究热点,因为它涉及到人类深度感知机制的理解以及深度学习技术的应用。引言:介绍了深度估计的重要性和应用领域,如图像分割、自主导航、机器人手术辅助、人体姿态估计等。

2024-04-22 18:58:35 7063 2

原创 超详细!!扩散模型基本原理讲解,一文搞懂扩散模型

扩散模型是一类基于概率的生成模型,它通过模拟数据从有序状态逐渐转变为随机噪声的过程,并通过学习逆向过程逐步还原出原始数据。这一模型框架特别适用于处理复杂的图像和音频生成任务,因其能够在生成高质量样本的同时,精确控制生成过程中的噪声水平。在实际应用中,扩散模型被广泛用于图像去噪、超分辨率、以及条件图像合成等多种计算机视觉和音频处理领域。其核心优势在于能够捕捉复杂的数据分布并生成具有高度细节和逼真度的结果。

2024-04-22 15:37:44 4911 1

原创 Google colab环境配置,代码复现

点击“Authorize”按钮,然后在新的浏览器标签页中输入您的Google账号密码,并按照提示进行授权。如果您需要使用GPU或TPU,可以在Colab笔记本的菜单中选择“Runtime” > “Change runtime type”,然后选择相应的硬件加速器。由于Colab的免费版本有使用时间限制(通常是12小时),您可能需要在训练过程中保存您的进度,以便在时间用尽后重新开始。训练完成后,您可以使用项目提供的评估脚本来评估模型。在Google Drive中创建一个新的文件夹,用于存放您的数据集。

2024-04-18 09:36:29 657 2

原创 深度学习归一化方法选择(BN,LN,IN,GN)

目前比较受欢迎的数据归一化层有:BN(Batch Normalization),LN(Layer Normalization),IN(Instance Normalization),GN(Group Normalization)这4种。

2024-04-17 21:05:24 1185 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除