【2023.07.26-2023.07.28】dreamfusion代码概况

本文链接：https://blog.csdn.net/FridaNN/article/details/131938363

1.代码的整体逻辑

main.py: 根据部分命令行输入，补充其他参数。如使用的nerf类型，包括太极模块加速的nerf、instant ngp的multigrid ，还是一般的nerf。是训练模式还是测试模型，根据不同的需要将不同的dataloader作为参数传入Trainer类中。如果是训练模型，则需要选择guidance、优化器、学习率。guidance是使用四种（stable diffusion or deepfloyd or clip or zero123）中的哪些。优化器是使用adan\adam。学习率是固定还是变化。

nerf\utlis.py:主要定义Trainer类，train_step函数、train函数、test函数。train_step函数中定义loss的计算方式。loss分为三类已知视角loss、未知视角loss、正则化loss。已知视角的loss用颜色、mask、法线、相对深度分别计算。新视角loss用guidance模型计算，可选guidance模型是否用perpneg处理负样本问题。正则化损失主要根据是否选择用dmtet渲染构建。train函数中保存checkpoint\调用tensorboard\以epoch调用train_step。test函数主要是生成视频。

nerf\provider.py：主要构建dataloader，定义NeRFDataset类

nerf\render.py：定义NeRFRender类，run函数渲染场景，计算深度图、颜色,调用raymarching方法。run函数有四种写法,cuda版本、太极模块、dmtet，以及基础版本。

nerf\network.py:定义NeRFRender子类NeRFNetwork，NeRFNetwork实例会在nerf\utlis.py被调用render方法，得到场景sigma、颜色、法线一类。背景会被encoding,之后再送入网络得到rgb，最后和图像其他内容一起alpha blending。encoder通过在encoding文件中定义FreqEncoder_torch调用shencoder、frequency encoder、gridencoder等对应的编码器。

ldm：如果使用zero123作为guidance，则会被调用。

optimizer.py:主要定义Adan优化器