DALL·E 3:Improving Image Generation with Better Captions

本文介绍了一种新的图像生成方法MiniDALL·E3,通过改进的BetterCaptions进行更精准的图像标注,以解决数据噪声问题。文章探讨了混合短标注与生成标注的训练策略,以及多种自动和人工评估方式,结果显示DALLE3在性能上优于其他模型。然而,方法存在局限性,如位置关系处理和文字生成的不足。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接:https://cdn.openai.com/papers/dall-e-3.pdf
DALLE3 API:https://github.com/Agora-X/Dalle3
官网链接:添加链接描述

DALLE3讲解视频:B站视频
推荐DALLE2的讲解视频:B站:跟李沐学AI 之前精讲的DALLE2论文

北理&上海AI Lab&清华提出 Mini DALL·E 3:https://arxiv.org/pdf/2310.07653.pdf
code:https://github.com/Zeqiang-Lai/Mini-DALLE3

要点分析

文章主要在讲:通过更好的文本标注(Better Captions),提升图像生成质量

在这里插入图片描述
在这里插入图片描述

1. 摘要(Abstract)

  • 解决问题:因为数据比较noise,很难按照prompt生成需要的图片
  • 方法/贡献:提出image captioner(图片标注器),生成图像精准的标注,去训练模型

3. 文章主体

3.1. 数据生成方法

  • 两种标注模式:
    • 1.短标注:只描述主要物体,主体
    • 详细标注:主体、环境、背景、文字、风格等
      • Clip scores高于短标注

在这里插入图片描述

在这里插入图片描述

  • 生成标注+原始文本标注的比例【意思train的时候加入生成标签,test的时候不加入呗?】
    • 混合原因:生成文本是基于数据的模式,用户的文本(原始标注)有自己的风格,原始标注相当于正则
    • 95%> 90% > 80%,但是不是100%最好
      在这里插入图片描述
  • 用户的prompt简短,不能充分发挥模型能力
    • 用GPT扩写用户的prompt
      在这里插入图片描述

3.2. 评估方式

在这里插入图片描述

  • 自动评估:
    • Clip scores:用Ms COCO的caption生成图片,然后用Clip scores去评估图片文本之间的匹配程度
    • Drawbench:Images提出的比较全的评测prompts,然后用GPT-V(多模态)来评估生成突破和Prompts的匹配度(生成模型评估生成模型hh)
    • T2l-Compbench:与Drawbench类似,区别在于GPT-V换成VQA
  • 人工评估:
    • Prompt fllowing:Prompts和图像匹配程度
    • style:图片质量,评估者是看不到Prompts,直接看两张图片哪个更好
    • coherence:观察不合理的结构,虚幻的场景人工评估打低分,作者换成用MS COCO的Caption生成的图像去做评估

在这里插入图片描述

4. 实验效果

  • 评估结果:DALL-E 3 > Midjourney 5.2 > Stable Diffusion XL > DALL-E 2

5. 总结

方法局限性:

  • 位置关系不准确
  • 文字的生成不行:因为T5 text encoder的局限性,它会把用户的prompts分隔开,整体把握小

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凌青羽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值