【2023.07.10-07.11】DreamFusion方法内容

FridaNN

已于 2023-07-12 15:00:47 修改

阅读量542

点赞数

文章标签：图形渲染

于 2023-07-11 20:45:49 首次发布

本文链接：https://blog.csdn.net/FridaNN/article/details/131654161

版权

1.DIP

A.渲染器及参数

由于text to 3d的目标是从任意角度渲染图片，从而得到更好的效果。所以其生成模型不能在像素空间采样。而可微图像参数化，可以满足。用数学语言可以表示为： $\bold{x}=g(\theta)$ ，其中 $\bold{x}$ 为图像， $g$ 为体渲染器， $\theta$ 为3d 体渲染参数。

B.渲染器的损失函数：

首先尝试了以类似 $\phi$ 的score matching的目标函数的形式构造 $\hat{\epsilon_\phi}(\bold{z}_t;y,t)$ ，用于学习条件密度 $p(\bold{x}|y)$ ，发现identity DIP 即 $x=\theta$ 时，生成图片的真实性。这是由于U-Net的Jacobian项计算量大，但是近似计算低噪声时的边缘分布的缩放后的Hessian矩阵会变得病态，难以收敛。省略U-Net的Jaccob项梯度则可以正常优化。所以构造SDS作为新的损失函数。

从为了拉近prompt条件后验分布 $p_{\phi}(\bold{z}_t|y)$ 和DIP渲染模型的先验分布 $q(\bold{z}_t|\bold{x}=g(\theta))$ ，先构造KL散度，求 $\nabla_{\theta}KL(p_{\phi}(\bold{z}_t|y)||q(\bold{z}_t|\bold{x}=g(\theta)))$ ，最后再利用该项构造成 $\nabla_{\theta}\mathcal L_{SDS}$

2.DREAMFUSION ALGORITHM

A.3d模型的神经渲染

based on mip-NeRF 360(减少了走样）

1)shading:

与NeRF的主要差别：先参数化表面的颜色，然后叠加光照。

（1） $(\gamma,\rho)=MLP(\mu;\theta)$

（2）参照lambertian渲染公式，构造颜色的计算公式：

表面的法向量： $n=-\nabla_\mu\frac{ \gamma}{||\nabla_\mu \gamma||}$
环境光： $\ell_a$ ;光源颜色： $\ell_\rho$ ;光源坐标 $\ell$ ; 采样点坐标 $\mu$

其中数学符号f(y)◦g(x)代表复合函数f(g(x))，则

(3)把颜色、法向量、以及和NeRF相同的权重带入NeRF渲染方程

（特别的，在渲染过程中，随机将着色率换为纯白，防止模型过拟合生成的3d结果是平面图像）

2)场景结构

查询场景的NeRF得到渲染的颜色, 用另一个MLP以位置编码后的光线为输入储存环境颜色。最终用在场景颜色上叠加渲染的颜色，按照alpha 值混合得到结果。这样避免NeRF场景把距离相机很近的部分都占满了，并且也能在生成的场景前添加效果。

3）几何正则化项

惩罚不透明度：防止对空间的不必要填充

朝向loss：防止法线出现大面积远离相机的情况

B. text to 3d合成流程

(1) 随机采样光线和相机

(2)用NeRF从该相机、该光线渲染一张图片

(3) 以NeRF参数为梯度,计算 SDS loss

(4) 用优化器优化NeRF的参数

-------------------------------------

$\hat{\epsilon_\phi}$ :guided noise prediction;

$\epsilon_\phi$ : noise prediction

------------------------------------

训练 $\phi$ 的score matching的目标函数：

和 $\nabla_{\bold{z}_t} log (p(\bold{z}_t))$ 的score function 的关系： $\epsilon_\phi(\bold{z}_t;t)=-\sigma_ts_\phi(\bold{z}_t;t)$ （根据Tweedie’s formula
）

通过控制guidance scalar $\omega$ 控制生成的质量： $\hat{\epsilon_{\phi}}(\bold{z}_t;y,t)=(1+\omega)\epsilon_{\phi}(\bold{z}_t;y,t)-\omega \epsilon_{\phi}(\bold{z}_t;t)$ （根据 classifier-free）

FridaNN

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【2023.07.10-07.11】DreamFusion方法内容

查询场景的NeRF得到渲染的颜色, 用另一个MLP以位置编码后的光线为输入储存环境颜色。这样避免NeRF场景把距离相机很近的部分都占满了，并且也能在生成的场景前添加效果。这是由于U-Net的Jacobian项计算量大，但是近似计算低噪声时的边缘分布的缩放后的Hessian矩阵会变得病态，难以收敛。（特别的，在渲染过程中，随机将着色率换为纯白，防止模型过拟合生成的3d结果是平面图像）与NeRF的主要差别：先参数化表面的颜色，然后叠加光照。的score matching的目标函数的形式构造。
复制链接

扫一扫