图像生成
文章平均质量分 90
AI生成未来
这个作者很懒,什么都没留下…
展开
-
无需昂贵标注!大幅提升SDXL和SD3-Medium效果!文生图偏好优化新宠来了 | TUM&Snap
解决的问题传统的直接偏好优化(DPO)方法依赖大量人工标注的数据集来对文本生成图像(T2I)模型进行对齐,但这种方法成本高昂,且数据容易过时,难以适应T2I模型快速提升的需求。提出的方案本研究提出一种完全合成的数据集收集方法,用于DPO训练。通过预训练的奖励函数生成成对图像的偏好数据,替代人工标注,极大地提升数据集的收集效率。同时,引入RankDPO方法,通过排名反馈增强DPO训练,提升模型的偏好学习效果。应用的技术。原创 2024-11-01 08:22:47 · 691 阅读 · 0 评论 -
Scaling laws在视觉自回归模型上失效了?谷歌联合MIT发布Fluid:文生图质量刷新纪录!
本文探讨了在视觉领域,特别是文本生成图像任务中,扩大自回归模型并不像在大语言模型中那样有益的现象。具体关注了以下两个关键问题:模型使用离散还是连续的token。模型在生成token时,使用随机顺序还是固定顺序(基于BERT或GPT的Transformer架构)。通过实验对比不同模型,研究模型在使用离散或连续token,以及在随机顺序或光栅顺序生成时的表现。基于实验结果,提出了一种新的模型——Fluid,该模型使用随机顺序的自回归生成方式,并基于连续token进行训练。使用BERT和GPT。原创 2024-10-25 08:48:03 · 753 阅读 · 0 评论 -
统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务
解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。原创 2024-10-24 21:21:15 · 881 阅读 · 0 评论 -
苹果重磅开源俄罗斯套娃扩散模型!MDM:多任务高分辨率生成又快又好!
生成高质量图像和视频的扩散模型面临高维度学习的计算和优化挑战,尤其是在处理高分辨率图像时。原创 2024-10-21 21:29:59 · 325 阅读 · 0 评论 -
“左脚踩右脚”提升文生图模型综合能力!清北牛津普林斯顿联合发布IterComp
现有的扩散模型(如RPG、Stable Diffusion 3 和 FLUX)在生成组合性图像时各有所长,有的擅长属性绑定,有的则在空间关系上表现更好。然而,这些模型无法全面解决组合性生成的多方面需求,缺乏一种能够综合各模型优势的方法。1. 如何提取不同模型在各自领域的优势,并引导模型进行有效学习?针对该问题,我们首先构建了模型库(model gallery),其包含多种在不同方面表现出色的模型,每个模型都具备特定的组合生成偏好(composition-aware model preference)。原创 2024-10-20 22:28:23 · 949 阅读 · 0 评论 -
个性化图像生成新王炸!无需微调,Meta重磅发布Imagine yourself:三大核心全面SOTA!
具体来说,提出了一种新颖的合成配对数据生成机制,新的完全并行架构结合了三个文本编码器和一个可训练的视觉编码器,以优化身份保留和文本对齐,以及一种新颖的由粗到细的多阶段微调方法,旨在逐步增强视觉吸引力,从而推动生成图像的视觉吸引力边界。在这种设置下,通过训练,网络学习如何在生成提示引导的图像背景时,将参考图像映射到群体照片中的对应主体。对于控制方法,本文注意到姿势图像的选择对最终生成图像的构成起着重要作用,即对于某些提示,精心选择的姿势图像可以使生成的图像更好或更差。消融结果突出显示了多阶段微调的影响。原创 2024-10-14 08:55:55 · 1076 阅读 · 0 评论 -
自回归视觉生成里程碑!比ControlNet 和 T2I-Adapter 快五倍!北大&腾讯提出CAR:灵活、高效且即插即用的可控框架
当前的视觉生成模型主要有两种技术路径:扩散模型和自回归模型。扩散模型在生成控制上表现出色,但自回归模型虽然具备强大的生成能力和可扩展性,控制性和灵活性方面仍然未被充分探索。原创 2024-10-13 14:40:18 · 717 阅读 · 0 评论 -
长动画上色质量再创新高!首个基于参考线稿的动画上色视频扩散框架LVCD发布
文章链接:https://arxiv.org/pdf/2409.12960项目链接:https://luckyhzt.github.io/lvcd。原创 2024-10-12 08:55:08 · 724 阅读 · 0 评论 -
视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!
图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。原创 2024-10-09 21:37:43 · 1344 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-09-28 10:46:29 · 703 阅读 · 0 评论 -
小红书开源StoryMaker:个性化图像生成模型,实现角色一致性与背景变化的完美结合
现有的无调优个性化图像生成方法在处理多个角色时,尽管能保持面部一致性,但在场景的整体一致性方面存在缺陷,这影响了叙事的连贯性。给定包含一或两个角色的参考图像,StoryMaker旨在生成一系列新图像,展示相同的角色,保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格,根据文本提示可以创建叙事。首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器获取他们的服装、发型和身体的细节。原创 2024-09-25 07:32:38 · 1352 阅读 · 0 评论 -
2万字长文超全详解!深度学习时代阴影检测、去除与生成在图像与视频中的全面综述
本文探讨了阴影分析中的开放问题,重点关注图像和视频感知、编辑以及对AIGC和大型视觉/语言模型的影响。本文的见解建议了未来的研究方向,为阴影分析及其应用的进展提供了路线图。原创 2024-09-24 08:13:25 · 1549 阅读 · 0 评论 -
腾讯&新加坡国立发布IFAdapter:即插即用,提升文生图模型实例特征和位置生成准确性
解决的问题传统的文本生成图像 (T2I) 扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战。尽管布局生成图像 (L2I) 任务通过使用边界框提供空间控制来解决定位问题,但在实例特征的精确生成上仍然不足。提出的方案为了解决这一问题,提出了实例特征生成 (IFG)任务,旨在同时确保生成实例的准确定位和特征保真度。为此,引入了实例特征适配器 (IFAdapter),作为一种模块,能够在不同模型中灵活应用。原创 2024-09-20 09:16:37 · 735 阅读 · 0 评论 -
Amazing!精准可控新视角视频生成+场景级3D生成!北大&港中文&腾讯等开源ViewCrafter
Sora等在大规模真实场景视频数据集上训练得到视频扩散模型能够学到对3D物理世界的深入理解,从而使其从单张图像或文本提示中生成复合物理规律和现实世界规则的视频内容。然而,由于它们缺乏场景的底层3D信息,因此难以在视频生成过程中实现精确的相机视角控制。原创 2024-09-13 09:04:49 · 1140 阅读 · 0 评论 -
时尚穿搭想换就换,各种风格一键完美搭配!亲测在线虚拟试衣换装平台效果超赞!
DressPlay是一款专为追求时尚或有特定穿搭需求的用户量身定制的换装应用。通过先进的 AI 技术,DressPlay 为用户提供了一个虚拟试衣间,使用户能够在几秒钟内试穿多种服装,并根据个人喜好进行个性化调整。无论是选择上衣、裤装还是整套装扮,DressPlay 都能一键为用户实现完美搭配。此外,DressPlay拥有简洁且直观的用户界面,用户可以轻松地浏览、选择和切换不同的服装组合。系统还提供了多种模板和风格选项,满足多样化的时尚需求。原创 2024-09-12 12:31:42 · 774 阅读 · 0 评论 -
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM
现有手写文本生成方法通常需要超过十个样本作为风格参考。实际应用中,用户偏好只用一个样本的生成模型以提高便利性和效率。单样本生成方法面临捕捉细节和处理背景噪声的挑战,特别是在字符边缘的高频信息提取上困难重重。提出了“单样本扩散模仿器”(One-DM)来生成手写文本,并能模仿任何书法风格。开发了一种风格增强模块,利用样本中的高频信息(如字符倾斜和字母连接)来提升风格提取效果。将风格特征与文本内容融合,作为扩散模型生成手写文本的引导条件。风格增强模块提取并增强样本中的高频信息,以捕捉细腻的风格细节。原创 2024-09-11 22:38:54 · 1064 阅读 · 0 评论 -
高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
给定 个稀疏视角(即,少至两个)图像 ,其中 ,目标是重建基础的3D场景,并合成未见视角的新视图。在框架 ReconX 中,首先从 中构建一个全局点云 ,并将 投影到3D上下文表示空间 中,作为结构指导。然后,将 注入视频扩散过程中,以生成3D一致的视频帧 ,其中 ,从而创建更多的观测。为缓解生成视频间不一致性导致的负面伪影,我们利用来自 DUSt3R 模型的置信度图 和 LPIPS 损失来实现鲁棒的3D重建。通过这种方式,我们能够释放视频扩散模型的全部潜力,从非常稀疏的视角中重建复杂的3D场景。原创 2024-09-10 09:09:59 · 1365 阅读 · 0 评论 -
兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!
文章链接:https://arxiv.org/pdf/2408.15914CoRe只用于输出embedding和注意力图,不需要生成图像,可以用于任意提示。在身份保护和文本对齐方面表现出优越的性能,特别是对于需要高度视觉可变性的提示。除了个性化一般对象外,方法还可以很好地实现人脸个性化,与最近的三种人脸个性化方法相比,生成了更多保留身份的人脸图像。近年来,文本到图像的个性化生成技术取得了显著进展,能够针对用户提供的概念实现高质量且可控的图像合成。原创 2024-09-10 08:26:45 · 976 阅读 · 0 评论 -
3D人体重建新SOTA!清华&腾讯等重磅发布MagicMan:单一图像生成高质量人体新突破
MagicMan,一种通过利用图像扩散模型作为 2D 生成先验和 SMPL-X 模型作为 3D 身体先验的方法,从单张参考图像生成人体的新视角。基于此,作者提出的高效混合多视角注意力机制确保了生成更密集的多视角图像,同时保持高的 3D 一致性,这一效果通过几何感知双分支进一步得到增强。此外,作者的新型迭代优化过程通过逐次迭代优化初始估计的 SMPL-X 姿势,以提高生成新视角的一致性,并缓解由不准确 SMPL-X 估计引起的几何畸形问题。原创 2024-09-09 23:37:43 · 1716 阅读 · 0 评论 -
可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!
本解读已获得论文作者的原创解读授权文章链接:https://arxiv.org/pdf/2408.16768在线demo: https://huggingface.co/spaces/ZiyuG/SAM2Pointcode链接:https://github.com/ZiyuGuo99/SAM2Point:SAM2POINT 通过将 3D 数据体素化为视频格式,避免了复杂的 2D-3D 投影,实现了高效的零样本 3D 分割,同时保留了丰富的空间信息。原创 2024-09-08 08:46:59 · 1112 阅读 · 0 评论 -
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
现有基于Transformer的UNet模型在生成高分辨率视觉内容时面临时间和内存复杂度的挑战,特别是在处理空间token数量时。原创 2024-09-08 08:36:24 · 1195 阅读 · 0 评论 -
ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer:零样本精确控制图像生成
最终,风格嵌入和文本嵌入被结合,并输入到SD的文本编码器中,这样风格图像就可以作为风格提示来生成图像,从而更好地描述所需风格。同时,风格和内容在各自独立的语义空间中处理,避免了风格和内容之间的重叠。例如,在生成的图像中,尽管包含了山脉和向日葵,但参考图像中的人类也出现在了结果中。这种方法帮助模型在嵌入空间中将相同风格的图像聚集在一起,而将不同风格的图像分散开来,从而增强了风格编码器处理新风格的鲁棒性。由于本文方法能够保持参考图像中的风格,如果使用多张不同风格的图像作为参考,则风格融合会产生新的风格。原创 2024-09-07 21:29:52 · 1412 阅读 · 0 评论 -
风格控制水平创新高!南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架
比较了最近的几种先进的基于反演的风格识别方法,包括Chung等人(2024)的StyleID、Hertz等人(2024)的StyleAligned方法,以及基于Transformer结构的StyTR2 Deng等人(2022)。所提出的风格迁移模型CSGO,如下图4所示,旨在实现任意图像的任意风格化,而无需微调,包括素描和自然图像驱动的风格迁移、文本驱动的风格化合成以及文本编辑驱动的风格化合成。所提出的方法支持文本驱动的风格控制,即给定一个文本提示词和一个风格图像,生成具有相似风格的图像。原创 2024-09-07 21:15:59 · 858 阅读 · 0 评论 -
统一单ID和多ID个性化框架!阿里发布UniPortrait:质量和多样性超越现有方法
文章链接:https://arxiv.org/pdf/2408.05939git链接:https://aigcdesigngroup.github.io/UniPortrait-Page/demo链接:https://huggingface.co/spaces/Junjie96/UniPortrait本文提出了UniPortrait,一种创新的人像图像个性化框架,统一了单ID和多ID的定制,具有高面部保真度和可控性;原创 2024-08-28 09:07:14 · 688 阅读 · 0 评论 -
像艺术家一样画画:通过构图、绘画和润色用扩散模型生成复杂场景(国科大&美图)
复杂场景的生成不足:尽管文本生成图像的扩散模型在图像质量上取得了显著进展,但复杂场景的生成仍然相对未被充分探索。“复杂场景”定义不明确:关于“复杂场景”的具体定义尚不清晰,导致难以有效处理这类生成任务。原创 2024-08-28 08:55:29 · 823 阅读 · 0 评论 -
ECCV`24|T2I与StlyeGAN2首次联手!PreciseControl:单肖像生成精细个性化图像!
论文链接:https://arxiv.org/pdf/2408.05083工程主页:https://rishubhpar.github.io/PreciseControl.home/git链接:https://github.com/rishubhpar/PreciseControl首次提出将大型文本到图像(T2I)模型与StyleGAN2结合的方法,通过将T2I模型条件化在丰富的潜在空间上实现。使用单张肖像图像进行有效个性化的方法,使得在空间中进行细粒度的属性编辑,并通过文本提示实现粗略编辑。原创 2024-08-25 08:47:55 · 550 阅读 · 0 评论 -
全面提升!上海交大等联合发布MegaFusion:无须微调的高效高分辨率图像生成方法
文章链接:https://arxiv.org/pdf/2408.11001项目链接:https://haoningwu3639.github.io/MegaFusion/提出了一种无需调优的方法——MegaFusion,通过截断与传递策略,以粗到细的方式高效生成百万像素的高质量、高分辨率图像;结合了膨胀卷积和噪声重新调度技术,进一步优化了预训练扩散模型对高分辨率的适应性;原创 2024-08-22 09:06:19 · 1129 阅读 · 0 评论
分享