鸡哥又上CV论文！单图生成3D模型，高质量且高效率新模型！

flyfor2013

于 2024-06-25 21:40:28 发布

阅读量555

点赞数 6

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flyfor2013/article/details/139975002

版权

大家好，今天和大家分享几篇最新的工作

1、VividDreamer

VividDreamer 是一个兼顾高质量和效率的文本生成3D资产的算法。更加具体来说就是，通过输入一句话，例如下图左上角的图片：输入 “A zoomed out DSLR photo of a corgi wearing a top hat” （戴着高顶礼帽的柯基犬的缩小照片），生成柯基的3D模型。

实现思路：

VividDreamer 的整体框架：

1、使用预训练的 Point-E（3D点云）和文本prompt初始化，并使用 3D Gaussian Splatting (3DGS) 作为 3D 表征

2、在训练中，给定一个相机姿势 c，通过 3DGS 的渲染管道渲染相应的视图，并使用 DDPM/DDIM 反演将其扰乱为 2D 扩散模型（扩散过程）

3、采用提出的姿势相关一致性蒸馏采样 (PCDS)，通过几步（1-3）采样，将噪声映射到伪GT（例如去噪后的图片）

4、计算渲染视图和伪GT 之间的均方误差 (MSE) 损失 LP CDS，并通过等式中的梯度更新 3D 高斯参数

对比不同的梯度目标：

（a）True Gradient 是一项耗时的工作，需要在每次迭代中进行完整的去噪采样。

（b）为了加速，分数蒸馏采样 (SDS) 使用 1 步 DDPM 采样将噪声直接映射到数据，即伪 GT，但由于 DDPM 带来的内在随机性，SDS 难以获得准确的梯度。

（c）PCDS 在扩散轨迹内从任何时间步 t 到原点 0 构建姿势相关一致性函数 fϕ，从而允许生成准确的伪 GT 并通过最少的采样步数 (1∼3) 获取精确的梯度。

论文和项目地址：

https://narcissusex.github.io/VividDreamer/

https://arxiv.org/abs/2406.14964

https://github.com/NarcissusEx/VividDreamer

2、MaX4Zero

MaX4Zero 在开放场景执行虚拟试穿（针对看不见的目标图像和服装），无需任何微调。

给定目标图像（上）和服装图像（下），使用基于扩散的先验生成图像，将输入服装替换为目标中已穿着的服装（右）。

实现思路：

顶部：初始配准阶段，使用从两幅图像中提取的深度特征将参考服装扭曲以匹配目标人物。目标服装和扭曲服装之间的剩余间隙由边缘分配模块填充。底部：一致修复阶段，利用mask扩展注意力机制通过基于笔触的修复来传输参考精细细节。

更多测试效果：

论文和项目地址：

https://arxiv.org/pdf/2406.15331

https://nadavorzech.github.io/max4zero.github.io/

3、Stylebreeder

Stylebreeder 是一个全面的数据集，包含 680 万张图像和 180 万条prompt。可以利用该数据集引入了一系列任务，旨在识别不同的艺术风格、生成个性化内容并根据用户兴趣推荐风格。

探索不同的艺术风格

使用最先进的特征提取器 CSD 将图像转换为一组style embeddings。然后使用 K-Means++ 算法将这些嵌入聚类成组，该算法利用余弦相似性来确保聚类内的内聚性。

基于风格的个性化图像生成

使用这些已发现风格的图像集群来微调 LoRA 模型，使其能够生成具有相似风格的新图像。

使用图像簇作为风格，可以为每个用户建模他们喜欢的风格。使用基于矩阵分解的方法，我们开发了一个推荐系统来提出用户以前未生成图像的新样式。

论文和项目地址：

https://stylebreeder.github.io/

https://arxiv.org/pdf/2406.14599

以上就是今天分享的最新成果，如果对大家有帮助，希望能帮忙点赞转发一波，感谢各位小伙伴！！！

课程推荐

对于发论文需求但是又担心课程质量，怕被割的小伙伴，可以了解一下哈

下面是主攻的论文方向和往期学生的一些反馈，内容真实可靠，有兴趣的小伙伴可以扫描最下面的二维码了解！！！

涉及方向

往期学员真实反馈：

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
鸡哥又上CV论文！单图生成3D模型，高质量且高效率新模型！

大家好，今天和大家分享几篇最新的工作 1、VividDreamerVividDreamer 是一个兼顾高质量和效率的文本生成3D资产的算法。更加具体来说就是，通过输入一句话，例如下图左上角的图片：输入 “A zoomed out DSLR photo of a corgi wearing a top hat” （戴着高顶礼帽的柯基犬的缩小照片），生成柯基的3D模型。实现思路：VividDreame...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。