组会ppt
小白难
这个作者很懒,什么都没留下…
展开
-
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning
我们提出了广义 LoRA (GLoRA),这是一种通用参数高效微调任务的先进方法。增强低秩适应 (LoRA),GLoRA 采用广义提示模块优化预训练模型权重并调整中间激活,为不同的任务和数据集提供更大的灵活性和能力。此外,GLoRA 通过使用可扩展的、模块化的、分层的结构搜索来促进有效的参数适应,该搜索学习每一层的各个适配器。GLoRA起源于统一的数学公式,具有很强的迁移学习、少镜头学习和域泛化能力,因为它通过权值和激活的附加维度调整到新任务。综合实验表明,GLoRA 在自然、专业和结构化基准测试中优于所有原创 2023-06-19 21:49:02 · 257 阅读 · 0 评论 -
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising
我们引入了一种新的范式,称为 Gen-L-Video,能够扩展现成的短视频扩散模型,以生成和编辑包含数百个具有不同语义片段的帧的视频,而无需引入额外的训练,同时保持内容的一致性。我们已经实现了三种主流的文本驱动视频生成和编辑方法,并扩展了它们以适应更长的视频,其中包含我们提出的范式的各种语义片段。我们的实验结果表明,我们的方法显着拓宽了视频扩散模型的生成和编辑能力,为未来的研究和应用提供了新的可能性。原创 2023-06-08 23:12:42 · 263 阅读 · 0 评论 -
Denoising Diffusion Semantic Segmentation with Mask Prior Modeling
我们的探索性分析揭示了几个重要的发现,包括:(1)将扩散模型简单地集成到语义分割中是不够的,设计不佳的扩散过程可能会导致分割性能下降; (2) 在训练过程中,添加噪声的对象比噪声类型更重要; (3)在推理过程中,严格的扩散去噪方案可能不是必需的,并且可以放宽到能够更好地工作的更简单的方案。原创 2023-06-08 23:06:19 · 311 阅读 · 0 评论 -
Efficient Geometry-aware 3D Generative Adversarial Networks
我们提出了一种新的方法来生成高质量、程式化的3D化身,该方法利用预先训练的图像-文本扩散模型进行数据生成,以及基于生成对抗网络(GAN)的3D生成网络进行训练。我们的方法利用图像文本扩散模型提供的外观和几何的综合先验,生成各种风格的虚拟形象。在数据生成过程中,我们使用从现有的 3D 模型中提取的姿势来指导多视图图像的生成。为了解决数据中姿势和图像之间的错位问题,我们研究了特定于视图的提示,并开发了用于 GAN 训练的从粗到细的鉴别器。原创 2023-06-08 16:44:28 · 68 阅读 · 0 评论 -
StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
我们提出了一种新的方法来生成高质量、程式化的3D化身,该方法利用预先训练的图像-文本扩散模型进行数据生成,以及基于生成对抗网络(GAN)的3D生成网络进行训练。我们的方法利用图像文本扩散模型提供的外观和几何的综合先验,生成各种风格的虚拟形象。在数据生成过程中,我们使用从现有的 3D 模型中提取的姿势来指导多视图图像的生成。为了解决数据中姿势和图像之间的错位问题,我们研究了特定于视图的提示,并开发了用于 GAN 训练的从粗到细的鉴别器。我们还深入研究了与属性相关的提示,以增加生成的化身的多样性。原创 2023-06-06 22:21:20 · 133 阅读 · 0 评论 -
ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation
我们提出了一种插件方法 ViCo,用于快速和轻量级的个性化生成。具体来说,我们提出了一个图像注意模块来调节patch-wise视觉语义上的扩散过程。我们引入了一个基于注意力的对象掩码,它几乎没有来自注意力模块的成本。此外,我们设计了一个简单的正则化,基于文本-图像注意图的内在属性,以缓解常见的过拟合退化。与许多现有模型不同,我们的方法不微调原始扩散模型的任何参数。这允许更灵活和可转移的模型部署。仅使用光参数训练(扩散 U-Net 的 6%),我们的方法在定性和定量上都实现了与所有最先进模型相当或更好的性能。原创 2023-06-06 21:25:47 · 109 阅读 · 0 评论 -
Any-to-Any Generation via Composable Diffusion
我们展示了 CoDi 的任何到任何生成能力,包括单到单模态生成、多条件生成以及多模态联合生成的新能力。例如,在给定文本输入提示的情况下生成同步视频和音频;或者在给定提示图像和音频的情况下生成视频。我们还使用八个多模态数据集对 CoDi 进行了定量评估。CoDi 在各种场景中表现出卓越的生成质量,合成质量与单模态 SOTA 相当甚至更好,例如音频生成和音频字幕。原创 2023-06-05 22:10:33 · 155 阅读 · 0 评论 -
Uni-ControlNet:文本到图像扩散模型的一体化控制
我们提出了Uni-ControlNet,这是一个利用轻量级适配器对预先训练的T2I扩散模型进行精确控制的新框架。如表1所示,与以前的方法不同,Uni-ControlNet将各种条件分为两个不同的组:局部条件和全局条件。因此,无论涉及多少个本地和全局控件,我们只添加两个额外的适配器。这种设计选择不仅大大降低了整体微调成本和模型尺寸,使得部署效率很高,而且便于不同条件的组合。为了实现这一点,我们专门设计了本地和全局控制的适配器。具体地说,对于本地控制,我们引入了多尺度条件注入策略,该策略使用共享的本地条件编码器原创 2023-06-04 21:53:41 · 296 阅读 · 0 评论 -
Prompt-Free Diffusion: Taking “Text“ out of Text-to-Image Diffusion Models
在本文中,我们提出了一种新的管道--无提示扩散,它基于样本图像而不是文本提示生成个性化输出。通过实验表明,我们的核心模块SeeCoder可以生成高质量的结果,并且可以通过替换片段轻松地在各种成熟的T2I管道上即插即用。最后但并非最不重要的一点是,SeeCoder在处理动漫形象生成和虚拟试穿等实际任务方面表现出了巨大的潜力,其质量令人惊讶,使其成为下游用户的进一步解决方案。原创 2023-06-03 17:42:41 · 141 阅读 · 0 评论 -
Prompt-to-Prompt Image Editing with Cross Attention Control
我们的方法通过仅编辑文本提示来构建直观的图像编辑界面,因此称为Prompt-to-Prompt。这种方法可以实现各种编辑任务,否则具有挑战性,并且不需要模型训练、微调、额外数据或优化。在整个分析中,我们发现对生成过程的控制更多,认识到编辑提示和源图像的保真度之间的权衡。甚至我们证明,我们的方法可以通过使用现有的反演过程应用于真实图像。我们的实验和大量结果表明,我们的方法能够在极其多样化的图像上以直观的基于文本的方式无缝编辑。原创 2023-05-26 16:07:05 · 633 阅读 · 0 评论 -
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode
我们提出了 T2I-Adapter,这是一种简单但有效的方法,能够以低成本很好地对齐 T2I 模型和外部控制信号的内部知识。2)。T2IAdapter 可以为现有的 T2I 模型提供更准确的可控指导,同时不影响其原始生成能力。3)。大量实验表明,我们的方法在各种条件下运行良好,这些条件也可以很容易地组合以实现多条件控制。4)。所提出的 T2I-Adapter 还具有吸引人的泛化能力,可用于一些自定义模型和粗略条件,例如自由手样式草图。原创 2023-05-22 20:57:23 · 309 阅读 · 0 评论 -
InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language
我们提出了一个先进的交互式视觉框架,称为InternGPT (iGPT),它结合了指向和语言指令的优势来执行复杂的以视觉为中心的任务。它由三个主要组件组成:处理图像或视频指向指令的感知单元,具有辅助控制机制的 LLM 控制器,可以准确解析语言指令,这是一个开放世界工具包,集成了 HuggingFace 的各种在线模型、用户训练的私有模型以及其他应用程序(例如,计算器、搜索引擎)。实习生GPT对指向和语言指令具有同等的重要性,并使用感知单元和LLM控制器在工具包中协调和执行应用程序,以完成复杂的以视觉为中心的原创 2023-05-18 11:35:17 · 346 阅读 · 0 评论 -
Magic3D: High-Resolution Text-to-3D Content Creation
我们使用低分辨率扩散先验得到一个粗模型,并使用稀疏的3D散列网格结构进行加速。在此基础上,进一步优化了纹理三维网格模型,并利用高效的可微渲染器与高分辨率的潜在扩散模型进行交互。我们的方法名为Magic3D,可以在40分钟内创建高质量的3D网格模型,比DreamFusion(据报道平均需要1.5小时)快2倍,同时获得更高的分辨率。用户研究显示,61.7%的评分者更喜欢我们的方法,而不是DreamFusion。与图像条件生成功能一起,我们为用户提供了控制3D合成的新方法,为各种创造性应用开辟了新的途径。原创 2023-05-08 20:44:20 · 173 阅读 · 0 评论 -
In-Context Learning Unlocked for Diffusion Models
本文旨在解锁文本引导的基于扩散的生成模型的上下文学习能力。我们引入了一种新的模型架构Prompt Diffusion,在视觉语言提示下执行上下文学习,可以适应各种视觉语言任务。我们在六种不同的视觉语言任务上联合训练提示扩散。原创 2023-05-07 19:49:36 · 164 阅读 · 0 评论 -
Adding Conditional Control to Text-to-Image Diffusion Model
本文介绍了ControlNet,这是一个端到端的神经网络体系结构,它控制大型图像扩散模型(如稳定扩散)来学习特定于任务的输入条件。ControlNet将一个大型扩散模型的权重克隆为“可训练副本”和“锁定副本”:锁定副本保留了从数十亿图像中学习的网络能力,而可训练副本则在特定于任务的数据集上进行训练,以学习条件控制。可训练和锁定的神经网络块与一种独特的卷积层相连接,该卷积层称为“零卷积”,其中卷积权重以学习的方式从零逐渐增长到优化的参数。由于保留了可用于生产的权重,因此训练在不同尺度的数据集上都是稳健的。原创 2023-05-07 14:49:38 · 94 阅读 · 0 评论