
图像生成
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等
任务局限性:现有方法仅针对特定任务(如人物插入、服装插入),缺乏通用性。控制模式单一:依赖固定控制方式(仅掩码或仅文本引导),灵活性不足。视觉-参考不协调:插入内容与目标场景风格不一致,或丢失参考图像的细节特征。原创 2025-04-24 22:24:09 · 553 阅读 · 0 评论 -
45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!
现有隐空间扩散模型(LDM)采用两阶段训练(先训练VAE,再固定VAE训练扩散模型),导致两个阶段的优化目标不一致,限制了生成性能。直接端到端联合训练VAE和扩散模型时,传统扩散损失(Diffusion Loss)失效,甚至导致性能下降。原创 2025-04-23 08:01:51 · 919 阅读 · 0 评论 -
突破传统“非此即彼”,真灵魂P图!腾讯最新FlexIP黑科技:身份保持和个性化我都要!
身份保持与编辑灵活性的固有矛盾:现有方法在生成模型中难以同时实现高保真身份保持和多样化个性化编辑,通常需要在两者之间做出权衡。跨模态对齐不足:传统零样本方法依赖视觉-语言对齐模块(如Q-former),导致图像生成任务中视觉与文本信息未能有效协同,影响身份保持和编辑效果。控制粒度不足:现有方法通过单一参数调整身份保持强度时,往往产生突变效果,缺乏连续、精细的控制能力。原创 2025-04-13 10:10:24 · 731 阅读 · 0 评论 -
图像编辑进入“精修时代”!“指哪改哪”!北交&美图发布DCEdit:改图不伤背景的终极方案
文本引导图像编辑任务面临的关键挑战是精确定位和编辑目标语义,而以往的方法在这方面存在不足。原创 2025-04-12 08:57:27 · 909 阅读 · 0 评论 -
单一模型统一多图个性化生成!字节重磅开源UNO, FLUX版训练、推理、权重全开源!
字节开源UNO,渐进式数据生成框架和通用定制化模型,实现了从单主体到多主体的高质量图像生成。在多个任务中取得了卓越的性能,包括单主体和多主体驱动的图像生成,并且能泛化到身份保持,换装,风格化等场景。原创 2025-04-11 23:33:08 · 1104 阅读 · 0 评论 -
业界首款多实例智能线稿上色系统来啦!港科大提出MagicColor:零基础也能产出专业级彩色漫画!
多实例线稿上色的效率与准确性:传统的手工上色方法需要艺术家逐个实例上色,效率低下且容易出错。训练数据不足:现有的生成方法由于缺乏多实例配对数据,难以有效解决多实例上色任务。实例级控制与颜色一致性:现有方法在实例级控制上表现不佳,容易导致颜色失真和细节丢失,且难以保持颜色一致性。原创 2025-03-29 23:21:08 · 732 阅读 · 0 评论 -
FLUX秒变高玩!DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题(浙大&哈佛)
多实例内容控制不准确:现有图像生成模型(如FLUX和3DIS)在控制多个实例(或区域)的内容时存在困难,容易出现属性泄漏问题,导致用户无法精确控制每个实例的视觉属性。文本嵌入与视觉信息绑定不准确:现有的文本到图像模型(如T5文本编码器)仅基于文本数据进行预训练,缺乏视觉信息,导致在多实例控制场景下,文本嵌入容易与错误的视觉属性绑定。图像质量与控制的平衡:在联合注意力机制中,过度限制图像标记的注意力范围会导致图像质量下降,而过于宽松的控制则无法保证每个实例的视觉属性准确生成。下图 2 展示了的概览。原创 2025-03-25 23:04:35 · 1288 阅读 · 0 评论 -
性能狂飙89%! 新加坡国立开源Conceptrol:让个性化图像生成更懂你的文字提示
个性化图像生成中的平衡问题:现有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成个性化图像时,难以平衡保留参考图像内容和遵循文本提示的要求。生成的图像往往只是复制个性化内容,而不是根据文本提示进行调整。设计缺陷:现有的adapters在将个性化图像与文本描述结合时存在设计缺陷,导致生成的图像无法充分利用基础文本到图像扩散模型的概念理解能力。原创 2025-03-25 23:01:22 · 893 阅读 · 0 评论 -
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)
理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中数据维度的演进。原创 2025-03-17 20:45:27 · 1352 阅读 · 0 评论 -
他们吃的那么香,我都看饿了!港大&字节发布领先商用级图像视频生成模型Goku有点东西
现有的图像与视频生成模型在质量、一致性和计算效率方面仍存在不足。需要构建大规模、高质量的数据集,以支持高性能生成模型的训练。现有的生成架构未能充分统一图像和视频的表示,影响跨模态生成效果。训练大规模生成模型的计算成本高,需优化并行计算与存储机制。原创 2025-03-11 05:45:43 · 742 阅读 · 0 评论 -
破解LoRA融合密码!无需训练夺得SOTA!K-LoRA巧用Top-K策略,让风格与主体完美融合
风格与内容的同时保留:现有方法在融合不同LoRA(Low-Rank Adaptation)时,难以同时有效保留原始图像的主体内容和风格细节。额外训练需求:现有方法通常需要手动调整超参数或进行额外的训练,增加了复杂性和计算成本。原创 2025-03-11 05:41:55 · 1034 阅读 · 0 评论 -
自回归模型迎来全能选手!FlexVAR一模型通吃图像生成/修补,推理速度与质量自由调节
本文作者来自北京交通大学、悉尼科技大学、美团、佐治亚理工学院。FlexVAR是一种灵活的视觉自回归图像生成范式,它通过真实值(ground-truth)预测而非残差预测来实现自回归学习,从而能够在任何步骤独立生成合理的图像。在本文的方法中:(1) 一个可扩展的 VQVAE tokenizer 将输入图像量化为多尺度的 token 并重建图像。(2) 一个 FlexVAR transformer 通过尺度自回归建模进行训练,去除了残差预测。原创 2025-03-06 06:55:15 · 1395 阅读 · 0 评论 -
CVPR 2025 | 扩散模型炼出新绝技!注意力蒸馏技术:图像生成效果全面碾压传统方法
现有生成扩散模型在图像风格和语义理解方面虽然有进展,但在将参考图像的视觉特征转移到生成图像中时,使用即插即用注意力特征的方法存在局限性。原创 2025-03-03 07:42:19 · 1166 阅读 · 0 评论 -
MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!
复杂生成模型的模块化:现有的生成模型(如扩散模型和自回归模型)虽然已经模块化,但缺乏更高层次的模块化抽象,难以构建更复杂的生成系统。非顺序数据的生成:现有方法在处理像素级图像生成等非顺序数据时表现不佳,尤其是在似然估计和生成质量方面。自然数据的分形特性:自然数据(如图像、蛋白质结构等)通常具有分形或近分形特性,现有生成模型未能充分利用这一特性。原创 2025-03-02 09:38:43 · 2260 阅读 · 0 评论 -
高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成
高质量多视角数据获取成本高:传统方法需要高质量的多视角工作室数据来创建逼真的人体表示,但这些数据获取成本高,限制了可扩展性。野外数据缺乏3D或多视角表示:大规模、非结构化的野外人体图像和视频虽然丰富,但缺乏真实的3D或多视角表示。多视角生成模型的3D一致性问题:现有方法在生成多视角图像时,难以保证3D一致性,且现有评估指标无法准确衡量3D一致性。原创 2025-02-17 22:37:01 · 992 阅读 · 0 评论 -
ICLR 2025 | 计算量仅DiT一半!中山大学&360 AI研究院开源Qihoo-T2X:统一架构搞定T2X任务
论文地址:https://arxiv.org/pdf/2409.04005项目主页:https://360cvgroup.github.io/Qihoo-T2X代码仓库:https://github.com/360CVGroup/Qihoo-T2X:论文一作为来自中山大学的博士生王晶;论文共同一作和项目leader为来自360 AI Research视频生成方向的负责人马傲。原创 2025-02-16 17:06:36 · 781 阅读 · 0 评论 -
只需一步!上交&哈佛提出FluxSR:首个基于12B+大模型的单步扩散真实世界超分模型
多步扩散模型的计算成本高,限制了其在真实世界图像超分辨率(Real-ISR)任务中的应用。现有的单步扩散方法受教师模型性能限制,低质量的教师模型会导致生成的图像出现伪影。大模型的训练成本和内存消耗高,尤其在蒸馏过程中,使用额外教师模型会显著增加计算负担。原创 2025-02-09 21:56:55 · 816 阅读 · 0 评论 -
仅128个token达到ImageNet生成SOTA性能!MAETok:有效的扩散模型的关键是什么?(卡内基梅隆&港大等)
现有的扩散模型通常使用变分自编码器(VAE)作为tokenizer,但VAE的变分约束可能限制了重建质量,影响生成效果。此外,现有的自动编码器(AE)虽然能提供更高保真度的重建,但其潜在空间可能过于混乱,不利于扩散模型的训练和采样。因此,如何构建一个既能保持高重建质量,又能提供良好结构化潜在空间的tokenizer仍然是一个未解决的问题。原创 2025-02-08 23:55:15 · 1276 阅读 · 0 评论 -
图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和inference scaling新范式!
随着OpenAI o1向社区展示了思维链Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习RL和提升test-time推理成本的方案已经在大模型理解领域取得了很大的进展。然而,在图像生成(Image Generation)领域,例如文生图(Text-to-Image)与文生视频(Text-to-Video),来自、和的研究者们通过Verify和Reinforce的方案,系统地探索了“CoT推理+文生图”的结合与潜力。原创 2025-02-04 09:45:49 · 993 阅读 · 0 评论 -
即插即用,无缝集成各种模型,港科大&蚂蚁等发布Edicho:图像编辑一致性最新成果!
解决的问题跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战,尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而,现有方法在处理多图像一致性时常表现出不稳定性或失真,难以满足实际需求。提出的方案本文提出了一种基于扩散模型的训练无关解决方案Edicho。其核心设计理念是通过显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。注意力操作模块:增强注意力机制,通过图像之间的对应性引导特征传递。原创 2025-01-09 22:18:56 · 837 阅读 · 0 评论 -
codebook从崩溃到高效利用!南大&清华&腾讯联合打造IBQ:自回归生成最强视觉分词器
现有的向量量化(VQ)方法在可扩展性方面存在困难,主要由于训练过程中仅部分更新的码本的不稳定性。随着利用率的降低,码本容易崩溃,因为未激活代码与视觉特征之间的分布差距逐渐扩大。原创 2025-01-05 23:21:10 · 719 阅读 · 0 评论 -
即插即用,无痛增强模型生成美感!字节跳动提出VMix:细粒度美学控制,光影、色彩全搞定
解决的问题扩散模型在文本到图像生成方面表现出色,现有方法在提升图像质量以满足人类偏好方面做出了努力,但未能充分满足人类对视觉生成内容的细粒度审美偏好,如自然光线、丰富色彩和合理构图等;现有方法在提升图像质量以满足人类偏好方面做出了努力,如FreeU、DPO等,尽管整体生成结果可能在文本对齐方面表现更好,但可能在视觉构图等方面表现较差,现有方法未能准确对齐生成图像与人类偏好。提出的方案通过对齐人类设计师偏好,构建包括光影、色彩、构图等不同美学标签,将文本条件解耦成内容描述和美学描述;原创 2025-01-04 23:16:54 · 976 阅读 · 0 评论 -
参数减少99.5%,媲美全精度FLUX!字节跳动等发布首个1.58-bit FLUX量化模型
解决的问题当前文本生成图像(T2I)模型,如 DALLE 3、Stable Diffusion 3 等,参数量巨大,推理时内存需求高,难以在资源有限的设备(如移动设备)上部署。本文重点研究极低比特量化(1.58-bit)在 T2I 模型中的可行性,以减少存储和内存需求,同时提升推理效率。**提出的方案 **选用 FLUX.1-dev 模型作为量化目标,通过后训练量化方法将其权重压缩为 1.58-bit(值限制为 {-1, 0, +1}),无需访问图像数据。原创 2025-01-02 22:37:02 · 1247 阅读 · 0 评论 -
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)
解决的问题多模态大语言模型(MLLMs)在支持多任务方面缺乏统一性,特别是图像和视频的联合处理能力不足。模型在细粒度像素级理解上存在局限,无法实现高精度的视觉区域定位与编辑。视觉功能单一,难以支持从视觉理解到生成、分割、编辑等全方位任务。多任务间存在协作性不足,任务间可能互相影响,难以实现统一优化。**提出的方案 **统一架构设计:VITRON 采用基于 LLM 的框架,前端集成图像、视频和像素级区域视觉编码器,后端结合最先进的图像与视频模块,支持视觉理解、生成、分割和编辑等多任务。原创 2025-01-02 22:31:05 · 2933 阅读 · 0 评论 -
让SD系列和FLUX.1无痛升级!浙大&vivo提出CoMPaSS:文生图空间理解能力暴涨!
文本到图像(T2I)扩散模型在生成图像时,通常无法准确呈现文本提示中描述的空间关系。主要原因有两个:1)现有数据集中与空间相关的数据具有模糊性;2)当前文本编码器无法准确解析输入描述的空间语义。原创 2024-12-26 22:27:48 · 673 阅读 · 0 评论 -
图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit:BrushNet进阶版来了
解决的问题当前基于扩散模型的图像编辑方法存在两大问题:基于反演(inversion)的方法在进行大幅度修改(如添加或移除物体)时效果较差,原因在于反演噪声的结构性限制了编辑的灵活性。基于指令(instruction)的方法通常采用黑箱操作,限制了用户直接指定编辑区域和强度的能力。提出的方案提出了一种新的图像编辑范式BrushEdit,基于图像修复(inpainting)和指令引导,结合多模态大语言模型(MLLMs)和双分支图像修复模型,构建了一个代理协作框架,实现:编辑类别分类。原创 2024-12-25 22:31:24 · 896 阅读 · 0 评论 -
图像生成与各种编辑任务大一统!贾佳亚团队提出DreamOmni:训练收敛速度快且性能强大
文生图遇到了一些挑战:将这些模型适应到下游应用通常需要以不同的方式集成各种插件(如ControlNet和IP-adapter),或扩展输入通道(例如,SD-inpainting 、InstructP2P)。这种对专门化框架的依赖限制了多任务泛化能力,并增加了部署的复杂性。高质量和准确的编辑数据难以获得,包括基于指令的编辑、拖拽编辑和主题驱动的生成数据。原创 2024-12-25 22:27:04 · 1310 阅读 · 0 评论 -
文生图击败所有扩散SOTA方案!智源研究院等提出NOVA:迈向统一的多任务大模型
现有的自回归视频生成模型(如图像或视频片段通过向量量化转换为离散值标记空间后进行逐标记预测)面临着高保真度和高压缩率难以同时实现的问题。向量量化的标记生成方法需要更多的标记来保证高质量,从而导致图像分辨率或视频序列较长时,计算成本显著增加。在自回归(AR)视觉生成领域,现有方法通常采用栅格扫描预测,导致生成效率较低,且对于大规模视频数据的处理能力有限。提出了一种新的自回归视频生成方法,称为NOVA,通过不使用向量量化的方式进行视频生成建模。原创 2024-12-24 08:41:25 · 1531 阅读 · 0 评论 -
首次实现8K图像生成!FreeScale让扩散模型解锁更高分辨率!| 南洋理工&阿里&复旦
当前的视觉扩散模型由于高分辨率数据缺乏和计算资源限制,仅能在有限分辨率下训练,难以生成高保真图像或视频。在生成高于训练分辨率的内容时,模型容易引入高频信息,导致重复模式和低质量内容。原创 2024-12-16 23:00:05 · 770 阅读 · 0 评论 -
去噪步数减少50%,图像生成质量反而更好!西湖大学等提出TPDM:自适应噪声调度
文章链接:https://arxiv.org/pdf/2412.01243提出了,该模型可以在推理过程中自适应地调整噪声调度,实现图像质量和模型效率之间的平衡。为了训练TPDM,通过强化学习最大化图像质量,并根据去噪步骤数折扣,直接优化最终的性能和效率。模型在多个评估基准上表现优越,在减少推理步骤的同时取得了更好的结果。原创 2024-12-04 11:56:44 · 919 阅读 · 0 评论 -
无需昂贵标注!大幅提升SDXL和SD3-Medium效果!文生图偏好优化新宠来了 | TUM&Snap
解决的问题传统的直接偏好优化(DPO)方法依赖大量人工标注的数据集来对文本生成图像(T2I)模型进行对齐,但这种方法成本高昂,且数据容易过时,难以适应T2I模型快速提升的需求。提出的方案本研究提出一种完全合成的数据集收集方法,用于DPO训练。通过预训练的奖励函数生成成对图像的偏好数据,替代人工标注,极大地提升数据集的收集效率。同时,引入RankDPO方法,通过排名反馈增强DPO训练,提升模型的偏好学习效果。应用的技术。原创 2024-11-01 08:22:47 · 923 阅读 · 0 评论 -
Scaling laws在视觉自回归模型上失效了?谷歌联合MIT发布Fluid:文生图质量刷新纪录!
本文探讨了在视觉领域,特别是文本生成图像任务中,扩大自回归模型并不像在大语言模型中那样有益的现象。具体关注了以下两个关键问题:模型使用离散还是连续的token。模型在生成token时,使用随机顺序还是固定顺序(基于BERT或GPT的Transformer架构)。通过实验对比不同模型,研究模型在使用离散或连续token,以及在随机顺序或光栅顺序生成时的表现。基于实验结果,提出了一种新的模型——Fluid,该模型使用随机顺序的自回归生成方式,并基于连续token进行训练。使用BERT和GPT。原创 2024-10-25 08:48:03 · 832 阅读 · 0 评论 -
统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务
解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。原创 2024-10-24 21:21:15 · 1041 阅读 · 0 评论 -
苹果重磅开源俄罗斯套娃扩散模型!MDM:多任务高分辨率生成又快又好!
生成高质量图像和视频的扩散模型面临高维度学习的计算和优化挑战,尤其是在处理高分辨率图像时。原创 2024-10-21 21:29:59 · 455 阅读 · 0 评论 -
“左脚踩右脚”提升文生图模型综合能力!清北牛津普林斯顿联合发布IterComp
现有的扩散模型(如RPG、Stable Diffusion 3 和 FLUX)在生成组合性图像时各有所长,有的擅长属性绑定,有的则在空间关系上表现更好。然而,这些模型无法全面解决组合性生成的多方面需求,缺乏一种能够综合各模型优势的方法。1. 如何提取不同模型在各自领域的优势,并引导模型进行有效学习?针对该问题,我们首先构建了模型库(model gallery),其包含多种在不同方面表现出色的模型,每个模型都具备特定的组合生成偏好(composition-aware model preference)。原创 2024-10-20 22:28:23 · 1053 阅读 · 0 评论 -
个性化图像生成新王炸!无需微调,Meta重磅发布Imagine yourself:三大核心全面SOTA!
具体来说,提出了一种新颖的合成配对数据生成机制,新的完全并行架构结合了三个文本编码器和一个可训练的视觉编码器,以优化身份保留和文本对齐,以及一种新颖的由粗到细的多阶段微调方法,旨在逐步增强视觉吸引力,从而推动生成图像的视觉吸引力边界。在这种设置下,通过训练,网络学习如何在生成提示引导的图像背景时,将参考图像映射到群体照片中的对应主体。对于控制方法,本文注意到姿势图像的选择对最终生成图像的构成起着重要作用,即对于某些提示,精心选择的姿势图像可以使生成的图像更好或更差。消融结果突出显示了多阶段微调的影响。原创 2024-10-14 08:55:55 · 1577 阅读 · 0 评论 -
自回归视觉生成里程碑!比ControlNet 和 T2I-Adapter 快五倍!北大&腾讯提出CAR:灵活、高效且即插即用的可控框架
当前的视觉生成模型主要有两种技术路径:扩散模型和自回归模型。扩散模型在生成控制上表现出色,但自回归模型虽然具备强大的生成能力和可扩展性,控制性和灵活性方面仍然未被充分探索。原创 2024-10-13 14:40:18 · 989 阅读 · 0 评论 -
长动画上色质量再创新高!首个基于参考线稿的动画上色视频扩散框架LVCD发布
文章链接:https://arxiv.org/pdf/2409.12960项目链接:https://luckyhzt.github.io/lvcd。原创 2024-10-12 08:55:08 · 853 阅读 · 0 评论 -
视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!
图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。原创 2024-10-09 21:37:43 · 1631 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-09-28 10:46:29 · 819 阅读 · 0 评论