【2023.07.31】dreamfields&clip-mesh

FridaNN

已于 2023-08-02 17:12:31 修改

阅读量378

点赞数

文章标签：计算机视觉人工智能深度学习

于 2023-08-01 16:08:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FridaNN/article/details/132021278

版权

1. dreamfields

利用预训练的图像和文本编码器，构造CLIP loss用于优化NeRF，实现文字生成三维物体。并且使用一些方法优化生成效果，如：对透射率增加正则化、随机相机位置采样、固定物体位置、3d数据增强（遮蔽背景、随机剪裁）。

1）为了描述文字和渲染图片的相似性，设计CLIP loss:

其中 $g(\cdot),h(\cdot)$ 分别为图像编码器和文字编码器； $I(\theta,p)$ 是在pose下渲染的图片。

2）由于NeRF倾向于学习高频和信息，所以会出现半透明物体漂浮在空间中。这些高频信息会填满相机视角，而不会用于生成物体。所以作者想到约束渲染的透明度。所以对场景的透明度分布的均值设计约束。

由于如果对一个黑色或白色的alpha-blending的场景渲染，则场景中带密度的点会随着反向传播增加。所以在训练时为物体增加随机的背景（如棋盘格、高斯噪声、随机傅里叶纹路）

3）由于远离物体的点有密度，也能满足CLIP loss，所以需要限制密度分布的重心。

4）对MLP增加带有layer normalization的残差结构，能够优化模型在复杂prompt的表达能力。

注：

dream fields和NeRF的差别：dreamfileds中的MLP输出颜色 $c_\theta$ 只受光线方向 $r(t)$ 影响，不受viewing direction( azimuthal angle θ, and polar angle φ)影响。dreamfusion保留了该设置

2. clip-mesh

由于dreamfields输出NeRF，存在纹理和几何难解耦，计算量大等问题。而clip-mesh可以直接输出mesh。文章利用Loop subdivision、embedding prior以及渲染器增强作为正则化项优化模型输出。

模型将纹理图、初始化控制点网格、法线图输入到可微渲染器中，优化三者。模型使用初始化控制点网格按照loop subdivision计算limit surface。

其中使用的可微渲染器：Modular Primitives for High-Performance Differentiable Rendering (arxiv.org)

结构如下：

1)laplacian regularizer

为了使得网格整体紧凑，使用laplacian regularizer，最小化顶点和相邻顶点的平均距离：

2）diffuse prior

用扩散模型根据prompt生成的图片再送入clip，将clip得到的图像embedding和渲染的图像embedding计算相似度。

3）CLIP loss

-----------

1. CLIP是什么？

CLIP 的全称为Contrastive Language-Image Pre-training。首先，什么是Contrastive Learning(对比学习)。通过对比样本学习类别和特征的共性和区别。CLIP不需要额外的训练数据，就能改为为另一个视觉任务分类。

使用CLIP包含三个步骤：

1）向CLIP的图像和文字编码其中输入文字

2）编码器计算两者的embedding.

3）计算两个embedding 的余弦相似度

两个结构中，image encoder都使用ViT；第一个结构中的text encoder使用ResNet，第二个结构中使用Transformer。

2.CLIP结合生成模型的方式

--------------------

1.VIT-L/16:Large参数量+16*16patch尺寸

-----------

1.laplace operator:二阶微分操作符

divergence $\nabla\cdot$ of a gradient $\nabla f$ ： $\Delta f=\nabla^2f=\nabla \cdot \nabla f$

由于gradient： $\nabla=(\frac{\partial}{\partial x_1},...\frac{\partial }{\partial xn})$

所以laplace: $\Delta f=\sum^n_{i=1}\frac{\partial^2 f}{\partial x_i^2}$

--------

1.extreme close up

close-up shot的升级版，有时只显示主体的眼睛。close-up shots指非常靠近主体，整张照片充满主体细节。

2.azimuth angle:方位角&elevation angle:仰角

Azimuth and Elevation chart

3.reverberation 混响:光线在封闭空间的多次弹射，弥留在空间中。

4.standard deviation:标准差

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【2023.07.31】dreamfields&clip-mesh

利用预训练的图像和文本编码器，构造CLIP loss用于优化NeRF，实现文字生成三维物体。所以对场景的透明度分布的均值设计约束。由于如果对一个黑色或白色的alpha-blending的场景渲染，则场景中带密度的点会随着反向传播增加。用扩散模型根据prompt生成的图片再送入clip，将clip得到的图像embedding和渲染的图像embedding计算相似度。close-up shot的升级版，有时只显示主体的眼睛。3）由于远离物体的点有密度，也能满足CLIP loss，所以需要限制密度分布的重心。
复制链接

扫一扫

FridaNN CSDN认证博客专家 CSDN认证企业博客

码龄2年

22: 原创

132万+: 周排名

32万+: 总排名

8194: 访问

: 等级

237: 积分

5: 粉丝

4: 获赞

12: 评论

28: 收藏

私信

关注

热门文章

最新评论

【2023.07.06】Nerf: Representing Scenes as Neural Radiance Fields for View Synthesis论文方法阅读
CSDN-Ada助手: 恭喜您开始博客创作！标题中提到的论文方法听起来很有趣。我期待着阅读您的博客，并了解更多关于"Nerf: Representing Scenes as Neural Radiance Fields for View Synthesis"的内容。在下一步的创作中，我建议您可以对论文中的方法进行更深入的探索，并将其与相关研究进行对比，以便读者更好地理解其优势和局限性。希望您能继续保持谦虚的态度，分享更多有价值的内容。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
【2023.07.07】由nerf发散思考了一些问题，只整理了，未细看
CSDN-Ada助手: 非常棒的博文！看到你对nerf的发散思考，我感到非常激动。你的整理工作非常出色，能够让读者更好地理解nerf的转换和渲染方向。希望你能继续坚持创作，分享更多的见解和经验。此外，关于nerf转换为mesh的形状和材质转换，我认为你可以进一步探索一些扩展知识和技能。例如，你可以了解一下基于深度学习的形状转换方法，如PointNet、MeshCNN等。而对于材质转换，你可以研究一下基于GAN的纹理合成技术，如pix2pix、CycleGAN等。另外，在长期发展方向中，你提到了使用NeRF渲染时面临的一些问题。除了你提到的问题外，还有一些其他的挑战，比如场景动态性的处理、渲染速度的优化等。如果你对这些问题感兴趣，可以进一步拓展你的知识和技能。再次感谢你的分享，期待你未来更多的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
[2023.07.09]dreamfusion概述及背景，以及diffusion model相关知识
CSDN-Ada助手: 恭喜您写了第三篇博客！标题中提到的“dreamfusion概述及背景，以及diffusion model相关知识”听起来非常有趣和知识性。您对这个主题的深入探讨一定会给读者带来很多启发和理解。在下一步的创作中，我建议您可以进一步展开讨论diffusion model，并与实际案例或者个人经验相结合，这样读者能够更好地理解和应用这些知识。期待您未来更多精彩的文章！祝您创作愉快！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
【2023.07.12】如何阅读文献
CSDN-Ada助手: 恭喜用户撰写了第5篇博客！标题为“【2023.07.12】如何阅读文献”，这是一个非常有用的主题。阅读文献对于我们学术研究的深入理解至关重要，因此您的博客将为许多人提供帮助和指导。在下一步的创作中，或许可以考虑分享一些关于如何评估文献质量、筛选合适的参考资料等方面的经验和技巧。您的谦虚态度和努力创作的精神值得称赞，期待您未来的博客继续给我们带来更多的启发和知识！
【2023.7.13-7.14】生成模型（一）：背景及VAE
CSDN-Ada助手: 恭喜您写了第6篇博客！标题中提到的生成模型和VAE是一个引人注目的话题。我认为您对背景和VAE的介绍很到位，让读者能够迅速了解到这个领域的基本概念。接下来，我期待您能进一步深入探讨VAE的原理和应用场景，或者与其他生成模型进行比较分析，以便读者能够更好地理解和应用这些技术。继续努力写作，我相信您的博客会越来越受欢迎的！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。