![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文生图
文章平均质量分 95
LuH1124
这个作者很懒,什么都没留下…
展开
-
【论文阅读笔记】HYPERHUMAN: HYPER-REALISTIC HUMAN GENERA-TION WITH LATENT STRUCTURAL DIFFUSION
1)我们高效的架构设计(仅添加轻量级分支)实际上可以在更小的数据集规模和更少的训练迭代下产生合理的结果,捕获 RGB、深度和表面法线的联合分布。此外,在最后的评估过程中,我们在不绘制的帮助下使用原始人体姿势,但仍然可以达到卓越的性能。我们将此视为一个有前途的研究问题,并将在未来的工作中对其进行探索。1)我们可以将我们的模型更改为更小的扩散主干,以节省计算和内存成本,例如 Small SD 和 Tiny SD (Kim et al., 2023),与稳定扩散实现了相当的性能,但在训练和推理方面更轻、更快。原创 2024-07-06 17:16:13 · 672 阅读 · 0 评论 -
【论文阅读笔记】InstantID : Zero-shot Identity-Preserving Generation in Seconds
现有的基于 ID 嵌入的方法,虽然只需要一个前向推理,但面临挑战:它们要么需要对众多模型参数进行广泛的微调,缺乏与社区预训练模型的兼容性,要么无法保持高人脸保真度为了解决这些限制,我们引入了 InstantID,这是一种强大的基于扩散模型的解决方案。我们的即插即用模块擅长仅使用单个面部图像处理各种风格的图像个性化,同时确保高保真度为此,我们设计了一种新的,通过施加强语义和弱的空间条件,将人脸和地标图像与文本提示相结合,引导图像生成。原创 2024-02-04 16:40:28 · 2125 阅读 · 2 评论 -
【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS
开发了一种潜在的扩散技术,其中我们学习了一个用于指导扩散过程的详细但极其紧凑的语义图像表示。与语言的潜在表示相比,图像的这种高度压缩的表示提供了更详细的指导,这显着减少了实现最先进结果的计算要求。(直观上理解就是文本的表示和图像的表示tokens一起作为条件引导图像生成)基于用户偏好研究提高了文本条件图像生成的质量。与稳定扩散 2.1 的200,000 GPU 小时相比,我们方法的训练需求由 24,602 A100-GPU 小时组成。我们的方法还需要较少的训练数据来实现这些结果。原创 2024-02-01 17:31:38 · 1223 阅读 · 2 评论 -
【论文阅读笔记】Prompt-to-Prompt Image Editing with Cross-Attention Control
文本驱动的图像编辑原创 2023-11-28 19:26:08 · 802 阅读 · 0 评论 -
【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
伴随文生图扩散模型在3d内容生成方面的应用,提出一种3D风格化身生成方法。通过利用预训练的文本到图像扩散模型来生成风格化的 3D 化身,该框架提供了使用文本提示定义样式和面部属性的能力,大大提高了化身创建的灵活性。所提出的从粗到细的鉴别器可以有效地解决生成的训练图像和姿势之间的错位问题,从而提高利用姿态标注不准确的图像数据。最后,开发了一个基于潜在扩散的附加条件生成模块,实现了基于图像输入的 3D 模型生成。原创 2023-11-25 22:38:37 · 154 阅读 · 0 评论 -
【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
论文阅读笔记:Emu原创 2023-11-22 13:53:30 · 294 阅读 · 0 评论