![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读笔记
文章平均质量分 89
LuH1124
这个作者很懒,什么都没留下…
展开
-
【论文阅读笔记】Meta 3D AssetGen
我们提出了 Meta 3D AsetGen (AssetGen),这是文本到 3D 生成的重大进步,它产生了忠实、高质量的网格,具有纹理和材料控制。与在 3D 对象外观中烘烤阴影的作品相比,AsetGen 输出基于物理的渲染 (PBR) 材料,支持逼真的重新照明。AsetGen 使用分解阴影和反照率外观通道生成对象的前几个视图,然后使用延迟阴影损失重建 3D 中的颜色、金属度和粗糙度以进行有效监督。**它还使用符号距离函数更可靠地表示 3D 形状,并为直接形状监督引入了相应的损失。原创 2024-07-06 18:43:02 · 812 阅读 · 1 评论 -
【论文阅读笔记】HYPERHUMAN: HYPER-REALISTIC HUMAN GENERA-TION WITH LATENT STRUCTURAL DIFFUSION
1)我们高效的架构设计(仅添加轻量级分支)实际上可以在更小的数据集规模和更少的训练迭代下产生合理的结果,捕获 RGB、深度和表面法线的联合分布。此外,在最后的评估过程中,我们在不绘制的帮助下使用原始人体姿势,但仍然可以达到卓越的性能。我们将此视为一个有前途的研究问题,并将在未来的工作中对其进行探索。1)我们可以将我们的模型更改为更小的扩散主干,以节省计算和内存成本,例如 Small SD 和 Tiny SD (Kim et al., 2023),与稳定扩散实现了相当的性能,但在训练和推理方面更轻、更快。原创 2024-07-06 17:16:13 · 672 阅读 · 0 评论 -
【论文阅读笔记】InstantID : Zero-shot Identity-Preserving Generation in Seconds
现有的基于 ID 嵌入的方法,虽然只需要一个前向推理,但面临挑战:它们要么需要对众多模型参数进行广泛的微调,缺乏与社区预训练模型的兼容性,要么无法保持高人脸保真度为了解决这些限制,我们引入了 InstantID,这是一种强大的基于扩散模型的解决方案。我们的即插即用模块擅长仅使用单个面部图像处理各种风格的图像个性化,同时确保高保真度为此,我们设计了一种新的,通过施加强语义和弱的空间条件,将人脸和地标图像与文本提示相结合,引导图像生成。原创 2024-02-04 16:40:28 · 2125 阅读 · 2 评论 -
【论文阅读笔记】Taming Transformers for High-Resolution Image Synthesis
旨在学习序列数据的远程交互,transformer继续在各种任务中展示最先进的结果。与 CNN 相比,它们不包含优先考虑局部交互的归纳偏差。这使得它们具有表现力,但对于长序列(如高分辨率图像)也在计算上是不可行的。我们演示了如何将cnn的归纳偏差与变压器的表达能力相结合,使它们能够建模,从而合成高分辨率图像。我们展示了如何 (i) 使用CNN 来学习图像成分的上下文丰富的词汇进而 (ii) 利用transformer有效地对它们在高分辨率图像中的组成进行建模。原创 2024-02-02 21:25:47 · 1595 阅读 · 1 评论 -
【论文阅读笔记】Advances in 3D Generation: A Survey
生成 3D 模型位于计算机图形学的核心,一直是几十年研究的重点。随着高级神经表示和生成模型的出现,3D 内容生成领域发展迅速,能够创建越来越高质量和多样化的 3D 模型。该领域的快速增长使得很难跟上所有最近的发展。在本次调查中,我们旨在介绍 3D 生成方法的基本方法并建立结构化路线图,包括 3D 表示、生成方法、数据集和相应应用。原创 2024-02-01 18:28:24 · 1016 阅读 · 0 评论 -
【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS
开发了一种潜在的扩散技术,其中我们学习了一个用于指导扩散过程的详细但极其紧凑的语义图像表示。与语言的潜在表示相比,图像的这种高度压缩的表示提供了更详细的指导,这显着减少了实现最先进结果的计算要求。(直观上理解就是文本的表示和图像的表示tokens一起作为条件引导图像生成)基于用户偏好研究提高了文本条件图像生成的质量。与稳定扩散 2.1 的200,000 GPU 小时相比,我们方法的训练需求由 24,602 A100-GPU 小时组成。我们的方法还需要较少的训练数据来实现这些结果。原创 2024-02-01 17:31:38 · 1223 阅读 · 2 评论 -
【论文阅读笔记】Make-A-Character: High Quality Text-to-3D Character Generation within Minutes
定制和富有表现力的3D角色的需求越来越大,但传统的计算机图形学手动创建创建是昂贵的。提出了一个名为 Make-A-Character (Mach) 的用户友好的框架,以从文本描述中创建类似生命的 3D 化身。该框架利用大型语言模型的强大功能进行文本意图理解和中间图像生成,然后是一系列面向人类的视觉感知和 3D 生成模块。两分钟左右生成、可以和现有CG管道集成、可支持动画驱动。原创 2024-02-01 15:31:59 · 1163 阅读 · 1 评论 -
【论文阅读笔记】NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images
通过联合优化许多输入图像上的单个场景表示,NeRF对高水平的图像噪声具有惊人的鲁棒性。我们利用这一事实直接在完全未处理的HDR线性原始图像上训练RawNeRF。在这个仅由单个蜡烛 (a) 照明的夜间场景中,RawNeRF 可以从经过后处理 (b, c) 破坏的噪声原始数据中提取细节。RawNeRF 恢复完整的 HDR 颜色信息,使 HDR 视图合成任务成为可能,例如改变渲染新视图的焦点和曝光。生成的渲染可以像任何原始照片一样修饰:在这里,我们展示了 (d, left) 具有简单全局色调映射的暗全焦曝光和 (原创 2024-01-05 01:50:18 · 700 阅读 · 0 评论 -
【论文阅读笔记】Stable View Synthesis 和 Enhanced Stable View Synthesis
code:暂无。原创 2024-01-04 20:24:00 · 628 阅读 · 0 评论 -
【论文阅读笔记】Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
MipNeRF360是在NeRF++和MipNeRF的基础上进行的扩展,利用NeRF++提出的远景参数化技巧和MipNeRF的低通滤波思想同时实现了无界场景的高质量渲染与抗锯齿。现有方法在新视角合成方面取得了令人影响深刻的结果但是现有方案由于附近和远处物体的细节和比例不平衡导致模糊和低分辨率渲染场景参数化在线蒸馏和一种失真正则化来克服抗锯齿和无界场景渲染目标场景是相机围绕一个点旋转360度的场景,同时能够得到较低的误差和更好的渲染质量、更详细的深度图使用一种新颖的类卡尔曼场景参数化。原创 2024-01-04 14:38:33 · 2160 阅读 · 0 评论 -
【论文阅读笔记】DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance
文本引导的3D数字人脸生成。原创 2023-12-31 18:16:59 · 1009 阅读 · 1 评论 -
【论文阅读笔记】NeRF+Mip-NeRF+Instant-NGP
NeRF是NeRF系列的开山之作,将三维场景隐式的表达为神经网络的权重用于新视角合成。MipNeRF和Instant NGP分别代表了NeRF的两个研究方向,前者是抗锯齿,代表着渲染质量提升方向;后者是采用多分辨率哈希表用于加速NeRF的训练与推理速度。通过NeRF实现新视角合成。原创 2023-12-10 23:26:16 · 1717 阅读 · 1 评论 -
【论文阅读笔记】Prompt-to-Prompt Image Editing with Cross-Attention Control
文本驱动的图像编辑原创 2023-11-28 19:26:08 · 802 阅读 · 0 评论 -
【论文阅读笔记】清单
记录即将阅读的论文清单,持续更新。原创 2023-11-27 21:27:31 · 428 阅读 · 0 评论 -
【论文阅读笔记】InstructDiffusion: A Generalist Modeling Interface for Vision Tasks
通过训练统一多视觉任务提升模型性能和泛化性能原创 2023-11-27 19:44:55 · 616 阅读 · 0 评论 -
【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
伴随文生图扩散模型在3d内容生成方面的应用,提出一种3D风格化身生成方法。通过利用预训练的文本到图像扩散模型来生成风格化的 3D 化身,该框架提供了使用文本提示定义样式和面部属性的能力,大大提高了化身创建的灵活性。所提出的从粗到细的鉴别器可以有效地解决生成的训练图像和姿势之间的错位问题,从而提高利用姿态标注不准确的图像数据。最后,开发了一个基于潜在扩散的附加条件生成模块,实现了基于图像输入的 3D 模型生成。原创 2023-11-25 22:38:37 · 154 阅读 · 0 评论 -
【论文阅读笔记】Emu Edit: Precise Image Editing via Recognition and Generation Tasks
基于指令的图像编辑,Emu Edit原创 2023-11-22 18:42:26 · 1226 阅读 · 0 评论 -
【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
论文阅读笔记:Emu原创 2023-11-22 13:53:30 · 294 阅读 · 0 评论