人工智能 | 文生图大模型_图生文大模型-CSDN博客

本文链接：https://blog.csdn.net/ceshiren_com/article/details/143598883

简介

Dall-E 由 OpenAI 发布，是一种基于深度学习的生成模型，它是一种改进的 GPT 模型，专门用于图像生成。Dall-E 可以根据文本描述生成与之相符合的原创性、真实的图像。

Dall-E 通过一个拥有 120 亿参数的 Transformer 模型来理解自然语言的输入，并生成相应的图片。这些图片不仅限于现实中已存在的图像，还包括虚拟的、现实中不存在的图像。

Dall-E 发展

Dall-E 和 Dall-E 2

Dall-E 最早发布于 2021 年 1 月 5 日由 OpenAI 发布，它具备生成逼真图像的能力。一年后的 2022 年 4 月 OpenAI 宣布了新版本的 DALL-E 2，这一版本具备更为强大的功能，并且在分辨率方便也提高了 4 倍。以下是 Dall-E 所具备的扩展的功能：

图像生成。
扩展图像。
修改已有图像。
根据已有的图像生成新的图像。

Dall-E 2 的局限性

尽管 Dall-E 2 的功能已经非常强大，然而开发者也公开提出了它的局限性，对于图像的属性，Dall-E 2 是没有一个很准确的判断的，并且细节方面还有很多的欠缺。

并且基于安全考虑，Dall-E 2 是不会生成包含暴力、政治等敏感图片的。

Dall-E 3 的增强

相比较 Dall-E 2 的图像生成，Dall-E 3 对图像的增强有以下几个方面：

提示优化：详细的提示会带来更为准确的图片结果。
清晰度：可选择standard标准与HD高清两种。
多尺寸：接受三种尺寸（1024px x 1024px、1792px x 1024px 和 1024px x 1792px）。
多风格：natural 自然和 vivid 生动两种。

应用场景

定制化图像生成
虚拟设定和游戏开发
产品设计和广告营销
自然语言处理和计算机视觉研究

实战示例

OpenAI 提供了三种 API 调用的方式，如下所示：

Dall-E 3 和 Dall-E 2：根据文本提示从头开始创建图像。
Dall-E 2：根据新的文本，替换预先存在的图像的某些区域。
Dall-E 2：根据图像生成图像的变体。

生成图像

前提：已安装 openai 库

保存图片需要提前下载 requests 库：pip install requests

# 实例化 openai 的对象
client = OpenAI(base_url="xxx",api_key="xxxx")
def generate_image_path():
    # 生成图片路径
    return os.path.join("img_" + datetime.datetime.now().strftime("%Y%m%d%H%M%S") + ".png"