DALL·E3 模型介绍(4)----通过更好的图像题注改进图像生成

5.局限性和风险

5.1空间意识

虽然 DALL-E 3 在提示跟随方面取得了重大进步,但它在物体放置和空间意识方面仍然存在困难。例如,使用“左边”、“下面”、“后面”等词语相当不可靠。这是因为我们的合成题注生成器也存在这个弱点:它在陈述对象位置方面不可靠,这在我们的下游模型中反映出来了。

5.2 文本渲染

在构建题注生成器时,我们特别注意确保它能够将图像中发现的突出单词包含在其生成的题注中。因此,DALL-E 3 可以在提示时生成文本。在测试过程中,我们注意到此功能不可靠,因为单词中存在缺失或多余的字符。我们怀疑这可能与我们使用的 T5 文本编码器有关:当模型在提示中遇到文本时,它实际上会看到代表整个单词的标记,并且必须将它们映射到图像中的字母。在未来的工作中,我们希望在字符级语言模型中挖掘能够改善这种行为的条件。

图 7 – DALL-E 3 常见故障示例:

照片中是宁静的公园。左边是一只金毛猎犬,专注地坐着,伸出舌头向前凝视。右边是一只虎斑猫,懒洋洋地躺着,伸着腿,带着好奇的表情看着狗。

外太空场景的卡通画。

在漂浮的行星和闪烁的星星中,一匹外形夸张的异想天开的马骑着一名宇航员,宇航员背着喷气背包在太空中游泳,看起来有点不知所措。

5.3特殊

我们观察到,我们的合成题注很容易产生幻觉,让人忘记图像中的重要细节。例如,给定一幅花的植物图,题注生成器通常会幻想出一个植物的属和种,并将其放入题注中,即使这些细节在图像中以文本形式提供。在描述鸟类图片时,我们观察到了类似的行为:物种要么被幻想,要么根本不被提及。

这对我们的文本转图像模型产生了downstream 影响:DALL-E 3 在为上述生成图像方面的特定术语是不可靠的。我们相信,对题注的进一步改进应该能够进一步改进我们的文本转图像模型。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值