DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

网友：OpenAI又open了？

出场即炸场的DALL·E 3，又有新动向了！

这次直接宣布对ChatGPT Plus和企业版用户开放，还连带公开了更多“官方推荐案例”。
在这里插入图片描述
不仅如此，OpenAI还一纸论文透露了DALL·E 3的关键技术细节。

相比其他AI，DALL·E 3表现最优秀的地方，应该就要属对提示词的完美遵循了。

无论是整体的环境描写，还是精确到物体数量、着装、颜色这种细节叙述，DALL·E 3都能很好地理解，并生成对应的画作，丝毫不漏重点。
![在这里插入图片描述](https://img-blog.csdnimg.cn/794d241e4179462098c26049b3f818a6.png
论文一公开，可以说是解决了“如何让DALL·E 3遵循指令”这一让诸多人困惑的问题，有网友感叹：

OpenAI终于又Open了？

在这里插入图片描述
一起来看看这篇DALL·E 3论文的关键细节，以及它的更多用例。

用数据集让DALL·E 3“唯命是从”
先来看看DALL·E 3论文最大的亮点：提示词遵循（prompt following）。

此前，不少绘画AI会刻意忽略提示词中的某些关键词、或是混淆提示词的含义（多义词如column，列还是柱子），简单来说就是文本提示词和画面细节没对齐。

OpenAI的研究人员在经过一番分析后认为，这是数据集的锅。

现有的图像文本对数据集，文字对图像的描述可以说是“惜字如金”。

尤其是从互联网上扒下来的数据集，大多数对图像的描述只有一句话，更别提细节了。包括环境、物体在内，容易忽略的文本描述主要有4类：
在这里插入图片描述
场景中物体描述，如厨房里的水槽、人行道上的停车标志等；
物体位置和数量描述
物体颜色和大小描述
图像中的文本描述（如呈现在商店招牌上的字母/汉字）
除此之外，还有不少互联网上扒下来图像的文本描述，直接就是错误或不相关的，例如梗图或Alt文本（图像加载失败时网页上呈现的文字描述）。

为此，有必要将这些图像对应的文本数据重新整理一遍，更准确地描述图像中的场景和物品进行描述。

光靠人力是不太可能的，毕竟要生成的“废话文学”太多了。

和RLHF一样，OpenAI同样将这个过程“自动化”了一波，让AI来完成这件事。

他们训练了一个“图像字幕器”（image captioner），专门用来给数据集中的图像重新生成文本描述。

这是“图像字幕器”给数据集中的部分图片生成文本描述的效果：
在这里插入图片描述
这下子描述就详细多了。

那么，用AI来合成文本，实际训练出来的模型是否真能提升生成效果？

研究人员用开源模型（如CLIP）测试了一波，得出的结论是可以。
在这里插入图片描述
不过也不能完全使用合成的文本描述，毕竟AI生成的内容可能有些“神秘共性”，直接全盘接受容易导致图像过拟合。

因此，OpenAI还在CLIP上尝试了一波合成文本描述-图像数据集的效果。

他们发现，数据集中混杂95%的合成文本-图像数据时，CLIP的效果是最好的。
在这里插入图片描述
最终，他们决定95%的图像用合成文本描述，剩下的5%图像依旧使用人工描述，用这个比例的文本-图像数据集重新训练了DALL·E 3，取得了不错的效果。

最后，OpenAI也采用人工评估的方法，对DALL·E 3和其他模型进行了测试。

评估方法大致像这样，询问人类哪个图像能更好地遵循提示词、或生成更好看的图像。

结果显示，DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2，在提示词遵循、风格匹配等任务测试上均取得了不错的效果。
![在这里插入图片描述](https://img-blog.csdnimg.cn/6b7cedb27b0a42ee9ed683d68a43c745.png