文生图——DALL-E 3 —论文解读——第一版

本文详细解读了DALL-E 3论文,探讨了合成caption在人工智能图像生成中的作用,包括为什么需要合成caption、合成思路及实验结果。同时,分析了caption混合比例实验、模型性能与结果对比,展示了自动和手工评价指标。文章还讨论了方法的局限性和未来疑问,为AIGC和计算机视觉领域的研究提供了新的视角。
摘要由CSDN通过智能技术生成

概述

    本文主要是DALL·E 3官方第一版技术报告(论文)的解读,原文《Improving Image Generation with Better Captions》论文解读。该文要提升文生图的效果,将技术点放到了,提升指令跟随能力上,然后顺藤摸瓜分为提升训练数据caption(使用模型合成caption),当然也要提升模型(关于模型结构、训练策略、数据集等都未做过多介绍,但是官方又明确提到,除了数据,模型也起到了不少的作用)。
    一句话省流版,数据方面,训练时使用95%模型(CoCa)合成详细描述caption + 5%原本人类 caption,测试时使用GPT-4v 扩写人类caption;模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。

效果

    参考几个之前公众号推出的测试效果:
    
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值