文生图
文章平均质量分 87
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
真“六边形战士”!Capybara把图像视频全打通:一个模型搞定T2I、T2V、I2V!
当前视觉内容创作领域存在高度碎片化的问题:现有工作多聚焦于单一模态(如图像或视频)或仅实现部分创作功能(如仅生成或仅编辑)。这导致解决方案彼此割裂、接口互不兼容,且上下文条件(如草图、参考帧)往往作为任务特定的附加模块引入,难以构建一个支持多样化多模态输入、具备统一创作流程的单一系统。原创 2026-03-17 07:33:00 · 398 阅读 · 0 评论 -
顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!
论文链接:https://ieeexplore.ieee.org/abstract/document/11206511代码链接:https://github.com/bytedance/RealCustom项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;原创 2025-12-24 23:36:20 · 359 阅读 · 0 评论 -
彻底告别VAE!清华x可灵联手开源SVG-T2I:生成理解合二为一,性能媲美SD3
核心挑战:视觉基础模型虽然在理解与感知上表现出色,但其表征空间尚未被充分用于大规模、高质量的视觉生成。研究空白:在VFM特征空间内端到端地训练大规模文本到图像生成模型是一个未经充分探索的领域,缺乏相关验证和可行的方案。原创 2025-12-18 07:48:18 · 873 阅读 · 0 评论 -
1步顶100步!TwinFlow:无需教师模型,仅单步推理,Qwen-Image-20B生成速度涨100倍!
TWINFLOW,一个用于训练大型少步连续生成模型的简单而有效的框架。消除了对 GAN 判别器或冻结教师模型等辅助训练组件的需求。允许对大模型进行直接的 1 步或少步训练,使其特别易于访问和高效。通过在不同规模和任务上进行的大量实验,证明了 TWINFLOW 在大模型上的文本到图像合成中提供了高质量的生成能力。原创 2025-12-12 07:26:01 · 951 阅读 · 0 评论 -
世界知识赋能文生图模型!港科大开源World-To-Image:自己上网搜图学习,准确率飙升8%!
本文提出WORLD-TO-IMAGE (W2I)框架,通过代理驱动的世界知识注入解决T2I模型的知识时效性问题。该框架包含协调代理、提示优化代理和图像检索代理,动态结合文本优化与视觉检索来增强语义对齐。在NICE等基准测试中,W2I在保持视觉质量的同时,将提示词准确率提升8.1%,尤其擅长处理新概念和组合性提示。实验表明其多模态优化策略显著优于传统方法,无需修改模型权重即可实现知识更新。原创 2025-10-08 15:56:14 · 886 阅读 · 0 评论
分享