(2025|字节,混合分辨率训练,跨模态 RoPE,SeedEdit,图像生成和编辑,VLM)Seedream 3.0 技术报告

Seedream 3.0 Technical Report

目录

1. 引言

2. 技术细节

2.1 数据

2.2 模型预训练

2.2.1 模型架构

2.2.2 模型训练细节

2.3 模型后训练

2.3.1 美学注释

2.3.2 模型训练细节

2.3.3 奖励模型扩展

2.4 模型加速

3. 模型性能

3.1 Artificial Analysis 排行

3.2 综合评估

3.2.1 人类评估

3.2.2 自动评估

3.3 文本渲染

3.4 写实人像生成

3.5 与 GPT-4o 的比较

3.5.1 密集文本渲染

3.5.2 图像编辑

3.5.3 生成质量

4. 结论


1. 引言

(2025|字节,ByT5,DiT,LLM,SFT,RLHF,RoPE)Seedream 2.0:中英双语图像生成基础模型

Seedream 3.0 是一个中英双语图像生成基础模型,相较于 Seedream 2.0,解决了以下关键挑战:

  • 提示词对齐不足,特别是数字精度与多物体空间关系;

  • 字体排版能力有限,难以生成小尺寸文字与复杂排版;

  • 图像美感和保真度不足;

  • 图像分辨率低,仅支持 512×512。

Seedream 3.0 采用了从数据构建到模型推理的系统性优化,包括:

  • 数据量翻倍,结合图像分布与语义平衡的采样策略;

  • 引入混合分辨率训练、跨模态 RoPE、表示对齐损失与分辨率感知的时间步采样;

  • 使用多样化美学描述与基于 VLM 的奖励模型;

  • 采用一致性噪声期望(consistent noise expectation)与重要性时间步采样(importance-aware timestep sampling)实现 4-8 倍推理加速。

模型在文本渲染、写实肖像、高分辨率输出方面表现尤为优异。

图 1:Seedream 3.0 在各项评估维度中均表现优异

  • 由于数据缺失,Imagen 3 的人像生成结果和 Seedream 2.0 的整体评分使用了其他模型的平均值进行替代。
  • 此外,在 Artificial Analysis 图文生成模型排行榜上,Seedream 3.0 以 17,000 次曝光时的 Arena ELO 评分 1158 位列第一。 

2. 技术细节

2.1 数据

在 Seedream 2.0 中,采用严格的数据过滤策略,排除带有水印、叠加文字、字幕(captions)、马赛克等轻微缺陷的图像数据。由于这些问题样本在原始数据集中占比高达约 35%,这一策略显著限制了可用训练数据的规模。

为解决这一问题,Seedream 3.0 引入了创新的缺陷感知(defect-aware)训练范式

  • 训练一个缺陷检测器(基于 15,000 个由主动学习(active learning)引擎筛选并人工标注的样本),通过边界框定位图像中的缺陷区域;

  • 若缺陷区域占图像总面积不足 20%(该阈值可调),则保留此样本,并在潜空间中进行掩码(mask)优化

  • 在扩散损失计算时使用空间注意掩码(spatial attention mask),排除缺陷区域的特征梯度,从而在保持模型稳定性的前提下,扩充有效训练数据约 21.7%

此外,Seedream 3.0 采用了双轴协同(dual-axis collaborative)数据采样框架,从视觉形态与语义分布两个维度优化数据选择:

  • 视觉维度:继续使用分层聚类方法,确保不同视觉模式(patterns)的均衡分布;

  • 语义维度:利用词频-逆文档频率(term frequency and inverse document frequency,TF-IDF)策略平衡描述文本,缓解长尾语义问题。

同时,引入了跨模态检索系统建立图文联合嵌入空间,并通过以下机制进一步动态优化数据:

  • 通过概念检索注入专家知识;
  • 利用相似度加权采样实现分布校准;
  • 使用检索得到的邻近对样本进行跨模态增强。

这些数据构建方法大幅提升了训练数据的多样性、质量与模态对齐能力。

2.2 模型预训练

2.2.1 模型架构

基于 Seedream 2.0 的 MMDiT 架构(如图 10 所示),在此基础上新增:

  • 混合分辨率训练:预训练使用多尺寸图像(256² 到 2048²),结合尺寸嵌入(size embedding)提升泛化;

  • 跨模态 RoPE(Cross-modality RoPE):与 Seedream 2.0 中使用的 Scaling RoPE 不同,跨模态 RoPE 将文本 token 视作二维嵌入,与图像 token 合并位置编码,提升模态对齐与文本渲染能力。

2.2.2 模型训练细节

采用流匹配损失(Flow Matching)结合表示对齐损失(representation alignment,REPA),后者基于 DINOv2-L 计算余弦相似度;

提出分辨率感知的时间步采样(Resolution-aware Timestep Sampling)策略:当在高分辨率训练时,偏移(shift)分布以增加在低 SNR 采样的概率;

  • 在训练时,计算数据集 D 的平均分辨率,以确定偏移的时间步分布。
  • 在推理时,根据目标分辨率和纵横比计算偏移因子。

2.3 模型后训练

Seedream 3.0 的后训练包括四个阶段:持续训练(CT)监督微调(SFT)人类反馈强化学习(RLHF)提示工程(PE),不再使用 Refiner 阶段,因模型已支持原生高分辨率生成(512²–2048²)。 

2.3.1 美学注释

专门为 CT 和 SFT 阶段的数据训练了多个版本的描述生成模型。

如图 4 所示,这些模型能够在美学、风格和布局等专业领域提供准确描述,从而使主模型能更有效地响应相关提示,提升模型的可控性及其在提示工程后的表现。

2.3.2 模型训练细节

为确保模型在不同分辨率下均有良好表现,在训练过程中对数据应用了分辨率均衡(resolution balancing)策略。该策略保证了不同分辨率下的训练样本数量充足,从而提升了模型在多种场景中对提示词的响应能力。

2.3.3 奖励模型扩展

使用多尺寸 VLM 作为奖励模型,借助 LLM 的指令问答范式计算 “是” 响应的概率评分,并首次引入奖励模型的参数扩展(从 1B 到 20B+),实现显著性能提升。

2.4 模型加速

提出自适应生成轨迹(adaptive generative trajectory)替代传统高斯扩散路径,显著减少生成步骤,同时保持高质量输出:

  • 一致性噪声期望(Consistent Noise Expectation):利用预训练模型估计统一噪声期望向量,作为所有时间步的参考,提升采样稳定性,减少图像失真,实现更少步数下的高质量生成。
  • 重要时间步学习(Learning to Sample Important Timesteps):不再均匀采样时间步,而是通过 Stochastic Stein Discrepancy(SSD)结合神经网络,动态预测最关键的时间索引,聚焦有效训练阶段,提升收敛速度并降低计算开销

整体框架支持少步高效采样,可在远低于 50 步的情况下生成媲美基线的图像质量,在美学、结构和文本对齐方面均表现优秀。其他加速手段(如量化)继承自 Seedream 2.0。

3. 模型性能

3.1 Artificial Analysis 排行

Seedream 3.0 在主流排行榜(如 Artificial Analysis)中领先 GPT-4o、Midjourney v6.1 等所有主流模型,在风格(写实、二次元、传统艺术)与主体(Subject,人物、幻想、空间等)类别均占据榜首。

3.2 综合评估

3.2.1 人类评估

构建 Bench-377 提示集,涵盖电影、艺术、娱乐、美学设计、实用设计五大场景。

Seedream 3.0 在文本对齐、结构合理性和美学得分方面全面领先,特别在 “设计” 类应用中超越 Midjourney。

3.2.2 自动评估

在文本对齐与图像质量方面全面领先:

  • 文本对齐 EvalMuse 指标最高;

  • HPSv2 超过 0.3,首次达成人类偏好一致性高标准;

  • MPS、美学评分全面胜过 Midjourney 与 Seedream 2.0。

3.3 文本渲染

在 180 个中英文提示中,Seedream 3.0 实现:

  • 中文文本可用率从 78% 提升至 94%,准确率与命中率均显著提升(定义见原论文);

  • 在密集文本(如长标题、海报)渲染中表现优于 GPT-4o,特别是在排版、字体细节方面;

  • 消除了图文分离或后期合成常见的排版错误。

3.4 写实人像生成

构建 100 个提示词集,聚焦细节纹理与情感表达:

  • Seedream 3.0 与 Midjourney v6.1 并列第一;

  • 支持 2048×2048 原生输出,纹理清晰,展现自然皮肤特征(毛孔、皱纹、疤痕);

  • 图像真实度媲美专业摄影,具备商业应用潜力。

3.5 与 GPT-4o 的比较

3.5.1 密集文本渲染

GPT-4o 擅长英文字符与 LaTeX 渲染,但中文排版与整合不足;Seedream 3.0 在中英文混排、美学排版方面明显优于 GPT-4o。

3.5.2 图像编辑

对比 SeedEdit(Seedream 分支)与 GPT-4o:

  • GPT-4o 功能丰富但易损原图 ID;

  • SeedEdit 保持人物一致性与高图文一致性;

  • Gemini 2.0 保持像素一致但存在色彩与质量问题。

SeedEdit 继承了 Seedream 3.0 的文本处理能力,表现令人满意。

  • 它能够准确识别图像中的文本,从而实现精确的删除或修改操作。同时,在添加文本时,SeedEdit 会考虑整体布局,使新文本自然融入原图。
  • 相比之下,尽管 GPT-4o 也能完成文本编辑任务,但无法很好地保留原图内容,限制了其实用性。 

3.5.3 生成质量

GPT-4o 图像偏黄、存在噪点;Seedream 3.0 色彩自然、清晰度高,整体生成质量更优。

4. 结论

Seedream 3.0 通过系统性技术创新,在以下方面全面领先:

  • 原生支持高分辨率图像输出;

  • 出色的中英文文本渲染,涵盖密集排版场景;

  • 真实感强、情感丰富的人像生成能力;

  • 在评测榜单中排名领先,性能全面超越 GPT-4o、Midjourney 等主流模型;

  • 在 Doubao、集梦等平台落地,具备广泛生产力应用前景。


论文地址:https://arxiv.org/abs/2504.11346

项目页面:https://team.doubao.com/tech/seedream3_0

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值