详细解读DreamFusion

本文详细解读了DreamFusion中的SDS Loss在生成三维物体领域的关键作用。通过加噪、去噪和反向传播的过程,利用Stable Diffusion的先验知识对NeRF渲染的图像进行监督。加噪涉及梯度剥离和噪声量的控制,去噪则通过Unet模型实现,最后通过反向传播将知识回传给NeRF,优化其参数。
摘要由CSDN通过智能技术生成

文本生成三维物体领域,目前基于优化的策略仍然离不开DreamFusion提出的SDS Loss,这也是DreamFusion中最核心的部分。承接,这里就以经典的Stable DreamStable DreamfusionStable Dream为例子,在这篇文章中简单地聊聊SDS的具体代码实现。

首先,让我们回顾一下SDS的基本作用和运作机理。对于一个2D的扩散模型,比如Stable Diffusion,我们想利用其2D的信息,监督三维物体的生成,这个时候就会用到SDS loss。SDS不是直接用Diffusion模型生成的最终图片做三维的监督,而是利用diffusion生成图片的过程提取知识。所以我们必须对NeRF渲染出的结果先用高斯噪声加噪,再用diffusion模型去噪。这样“加噪—去噪”的过程中,我们就可以用上Diffusion生成图片时候的先验知识了。

因此,对于一个NeRF渲染出来的结果[B, 3, H, W](这里的B是batch size,3代表RGB这三个颜色通道,H和W代表宽和高),我们给它赋个值,以便大家有个直观的认识。假定[B, 3, H, W]具体的形状是[1, 3, 64, 64]。这就代表我们用NeRF在每个step里渲染出一张分辨率为64*64的图片,用来给diffusion监督。

一,加噪

第一步,我们先将这张64*64的小图片插值成一张512*512的图片,这是为了迎合Stable Diffusion的分辨率。这是因为Stable Diffusion 1.5的训练分辨率就是512*512,所以当然是插值到这个分辨率下加噪去噪最好:

def train_step(self, text_embeddings, pred_rgb, guidance_scale=100):
          # 输入--pred_rgb:[1,3,64,64]
          # 将输入插值到512*512,用来喂给stable diffusion的vae
          pred_rgb_512 = F.interpolate(pred_rgb, (512, 512), mode='bilinear', align_corners=False)
          # 输出--pred_rgb_512: [1,3,512,512]

这是有人可能会心里有一些疑惑:既然最后要插值到512*512,那为什么不一开始我们就用NeRF渲染一张512*512的图片来作为输入呢?这其实是受限于早期对diffusion和NeRF的优化并没有那么好,所以要渲染高分辨率的图片会非常的慢,而且对显存的消耗很严重,因此大家普遍采用先渲染低分辨率图片再插值的策略。

然后,我们进行“加噪—去噪”中的加噪过程。这里和一个普通的Stable Diffusion生成图片过程的加噪一样,整个过程需要在隐空间(latent space)上进行。因此,我们利用SD预训练好的vae将[1,3,512,512]的图片encode到隐空间上,隐空间上图片的形状就转变为[1,4,64,64]。这里的4就是隐空间上抽象的向量维度了,和原来的RGB已经不再是一个东西了[1]

           # 输入--pred_rgb_512: [1,3,512,512]
           latents = self.encode_imgs(pred_rgb_512)
           # 输出--latents: [1,4,64,64]

至此,我们就得到了一个Stable Diffusion的隐向量(latents),可供我们在“加噪—去噪”的过程中提取出扩散模型对于这个世界的认识。然后,我们正式给这个隐向量(latents)加上噪声,具体操作如下:

        # predict the noise residual with unet, NO grad!
        with torch.no_grad(
  • 22
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spring源码详细解读需要花费大量的精力和时间,以下是其中的一些重要部分: 1. 基础设施:Spring框架的基础设施包括IoC容器、AOP、MVC框架、事务管理、数据访问、消息机制、安全框架等。这些设施是Spring框架的核心,也是Spring源码的重点之一。 2. 核心类:Spring源码中有很多核心类,如BeanFactory、ApplicationContext、BeanPostProcessor、BeanDefinition、BeanWrapper、AOP代理、DispatcherServlet、HandlerMapping等。这些类是实现Spring基础设施的关键,需要深入理解它们的设计和实现原理。 3. 设计模式:Spring框架采用了很多设计模式,如工厂模式、单例模式、策略模式、模板方法模式、代理模式、观察者模式、责任链模式等。理解这些设计模式的应用和原理,可以帮助我们更好地理解Spring源码的实现。 4. 源码分析:通过对Spring源码的分析,可以深入了解Spring框架的实现方式,包括框架的启动流程、Bean的生命周期、依赖注入的实现、AOP代理的生成、MVC框架的处理流程、事务管理的实现等方面。 5. 扩展和定制:Spring框架提供了很多扩展和定制的方式,如BeanPostProcessor、BeanFactoryPostProcessor、AOP Advisor、MVC Interceptor等。通过深入理解这些扩展和定制方式的实现原理,可以帮助我们更好地定制和扩展Spring框架。 总之,深入理解Spring源码需要花费大量的时间和精力。但是,通过这样的学习,可以帮助我们更好地使用和扩展Spring框架,以及更好地理解其他基于Spring框架构建的企业级应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值