图像生成
文章平均质量分 96
Sherlock Ma
研究生在读,致力于分享编程技术。主要研究人工智能相关,包括大模型、AIGC等。偶尔也会更新Java内容
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Qwen-Image:通义团队新开源超强中文文生图模型(技术报告解读)
Qwen-Image是由阿里巴巴团队开发的200亿参数多模态图像基础模型,在复杂文本渲染和精准图像编辑方面取得突破性进展。该模型采用MMDiT架构,整合了多模态大语言模型Qwen2.5-VL和创新的变分自编码器,通过多阶段训练策略和严格的数据过滤流程,实现了卓越的生成能力。在公开基准测试中,Qwen-Image在文本到图像生成、中文文本渲染、图像编辑等任务上均达到SOTA水平,特别是在中文长文本处理和结构化视觉内容生成方面表现突出。原创 2025-08-11 17:27:22 · 3398 阅读 · 0 评论 -
MeanFlow:何凯明新作,单步去噪图像生成新SOTA
这篇文章介绍了MeanFlow,这是一种新型的一步生成模型框架,用于生成建模。与传统的流匹配方法不同,MeanFlow通过引入平均速度的概念来表征流场,而不是使用瞬时速度。平均速度定义为两个时间步长之间的位移与时间间隔的比值,这一定义使得模型能够在单次函数评估中完成从先验分布到数据分布的转换,显著提高了生成效率。文章详细阐述了MeanFlow模型的理论基础,包括平均速度与瞬时速度之间的关系,以及如何通过神经网络训练来近似平均速度场。原创 2025-06-09 22:13:37 · 4224 阅读 · 1 评论 -
Janus-Pro:Deepseek又一强力之作,统一多模态理解与生成!(包含论文代码详解)
本文介绍了 Janus-Pro,这是 Janus 模型的高级版本,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的能力。Janus-Pro 在多模态理解基准测试中超越了现有的先进模型,并在文本到图像指令遵循任务中表现出色。代码和模型已公开。方法1. 架构设计Janus-Pro 的架构与 Janus 保持一致,核心是将多模态理解任务和视觉生成任务的视觉编码进行解耦。对于多模态理解任务,使用 SigLIP 编码器提取图像的高维语义特征;原创 2025-02-01 12:19:41 · 2722 阅读 · 0 评论 -
LeDeCo:AI自动化排版、设计、美化海报
这篇文章的核心内容是介绍了一种名为LaDeCo的新型自动图形设计构图方法。LaDeCo通过将大型多模态模型(LMMs)与分层设计原则相结合,能够将多模态图形元素自动组合成一个整体、平衡且美观的图形设计。原创 2025-01-16 22:32:41 · 2399 阅读 · 0 评论 -
DiffSense:强大的漫画生成模型,一键生成漫画!(包含使用教程及论文代码分析)
本文介绍了DiffSensei,用于定制化漫画生成的AI模型。DiffSensei能够理解文本提示,动态调整角色特征和布局,创造出既符合描述又具有视觉吸引力的漫画内容。原创 2024-12-19 22:31:29 · 3715 阅读 · 1 评论 -
VAR:视觉生成新范式,投毒风波难掩NeurIPS2024最佳论文!(包含论文代码详解)
Visual AutoRegressive modeling (VAR),这是一种新一代范式,与标准光栅扫描“next-token预测”不同,它将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”。VAR首次使GPT风格的AR模型在图像生成方面超过DiT。除此之外,VAR还延续了LLM的两个重要特性:Scaling Laws and zero-shot泛化。原创 2024-12-16 22:03:36 · 2719 阅读 · 0 评论
分享