AI画师技术又精进了 AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发(1)-CSDN博客

本文链接：https://blog.csdn.net/2401_84264536/article/details/138768147

写在最后

在结束之际，我想重申的是，学习并非如攀登险峻高峰，而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后，持之以恒的学习变得愈发不易，如同在茫茫大海中独自划舟，稍有松懈便可能被巨浪吞噬。然而，对于我们程序员而言，学习是生存之本，是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习，我们便如同逆水行舟，不进则退，终将被时代的洪流所淘汰。因此，不断汲取新知识，不仅是对自己的提升，更是对自己的一份珍贵投资。让我们不断磨砺自己，与时代共同进步，书写属于我们的辉煌篇章。

需要完整版PDF学习资源私我

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

请添加图片描述
2. 青蛙穿着毛衣；蛋壳裂成两半，旁边站着一只可爱的小鸡
3. 一张美丽的天空城市的插图，吉卜力工作室，艺术站，8k HD”

可以看到生成的模型不仅可以渲染生动的物体形状，还可以渲染合理的光线、颜色、密度，更重要的是，生成的3D模型还可以导出到网格中，用建模软件进一步加工。

2、Dreamfields-3D AI画师三维版试玩

前不久Dreamfields-3D已经宣布开源，并且提供了colab地址！

这意味着AI画师三维版玩法十分低门槛，对我们本地机器没有任何硬性配置要求，直接在线就可以colab试玩了。大致只需要三步。这里我们介绍一下colab上在线玩的步骤：

2.1、第一步：进入colab

首先打开Dreamfields-3D的colab试玩地址，可以看到，Dreamfields-3D的Jupyter Notebook代码：
在这里插入图片描述
展开可以看到，其分为三大部分：①机器检查；②环境安装；③训练和测试

2.2、第二步：连接Google云端硬盘

点击check the machine的运行按钮
在这里插入图片描述
代码需要连接Google云端硬盘读写文件，点击连接。

2.3、第三步：配置参数开始运行

配置一下training和test的设置参数，保存格式有视频和网格两种，输出模型格式为带顶点色的obj和ply。如果你只是简单试玩，可以选择不动他的参数。
在这里插入图片描述
然后依次点击运行按钮就可以开始试玩了，初始训练轮数为200轮，每轮运行时间大概需要1分钟，每10轮会进行一次输出，可以观看每10轮的效果：

等待训练完成后，就可以输入自己想要的文本来生成3D模型啦。

3、DreamFusion 原理分析

上节我们体验的是Dreamfields-3D，可以看到虽然可以生成模型，但是看起来效果并不是很好，风格比较诡异，而前不久Google Research在Dreamfields-3D基础上做了改进，发布了最新成果DreamFusion，让生成模型的形态、颜色、光线、密度有巨大的飞跃，虽然 Dreamfusion 还未开放使用，但项目网站提供了生成画廊：DreamFusion预览地址
在这里插入图片描述
要直接训练一个text-to-3D的模型非常困难，因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对，但并不存在如此大规模的3D标注数据，目前也没有一个高效的模型架构对3D数据进行降噪。DreamFusion先使用一个预训练2D扩散模型基于文本提示生成一张二维图像，然后引入一个基于概率密度蒸馏的损失函数，通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。

在DreamFusion中，使用了一个预先训练的二维文本到图像扩散模型，扩散模型是潜在变量生成模型，它学习将样本从可控制的噪声分布逐渐转换为数据分布。
在这里插入图片描述
评分蒸馏采样的损失函数叫SDS，其代替CLIP通过文本到图像的Imagen扩散模型来计算损失。用评分蒸馏采样来表示生成过程中的损失，通过不断优化最小化这种损失，
通过优化实现可控制的采样，从而输出质量良好的3D模型。

除此之外，与Dream Fields相比，Dreamfusion通过文本提示生成高质量、深度和普通的背光3D对象。使用Dreamfusion生成的多个3D模型也可以缝合到一个场景中，比如下图，迭代地细化一个示例文本提示，同时从四个不同的方面渲染每个生成的场景：
在这里插入图片描述
Dreamfusion从随机的相机位置和角度反复渲染NeRF的视图，用这些渲染结果作为环绕Imagen的分数蒸馏损失函数的输入。每次迭代都包含四步：①随机采样一个相机和灯光；②从该相机和灯光下渲染NeRF的图像；③计算SDS损失相对于NeRF参数的梯度；④使用优化器更新NeRF参数。