(5-1)常用的文生图预训练模型:

码农三叔

于 2024-08-23 16:01:18 发布

阅读量441

点赞数 14

分类专栏：大模型从入门到实战(数据集、训练、微调、RAG、多模态) 多模态大模型丛理论到实操文章标签：人工智能深度学习大模型文生图多模态

本文链接：https://blog.csdn.net/asd343442/article/details/141468162

版权

大模型从入门到实战(数据集、训练、微调、RAG、多模态) 同时被 2 个专栏收录

175 篇文章 57 订阅

订阅专栏

多模态大模型丛理论到实操

23 篇文章 1 订阅

订阅专栏

在文生图（Text-to-Image Generation）任务中，可以使用预训练模型提高开发效率。这些预训练模型各有优缺点，选择适合的模型取决于具体的应用场景和需求。在实际开发中，可能需要根据任务特点进行模型的微调和优化。在本章的内容中，将详细讲解常用的文生图预训练模型的知识和用法，为读者不如本书后面知识的学习打下基础。

5.1 DALL-E

DALL-E 是由 OpenAI 提出的一个生成模型，旨在根据文本描述生成高质量的图像。DALL-E是一种基于 Transformer 架构的模型，能够理解复杂的文本并生成对应的图像。

5.1.1 DALL-E介绍

DALL-E的名字灵感来自于艺术家 Salvador Dalí 和 Pixar 的机器人角色 WALL-E，体现了该模型将创造力与人工智能结合的理念。WALL-E的主要目是探索人工智能在创造性领域的潜力，尤其是在根据文本生成图像方面。

1. 架构与技术细节

Transformer 架构： DALL-E 使用了一种变体的 Transformer 模型，称为 VQ-VAE-2（Vector Quantized Variational AutoEncoder-2），来处理文本和图像生成任务。
双向编码器：文本输入通过一个编码器转化为一组隐含表示，这些表示然后被解码器使用来生成图像。
向量量化：使用向量量化技术来对图像进行编码，使得图像生成更加高效和稳定。

2. 模型训练

DALL-E使用大规模的数据集进行训练，包括成千上万对图像和对应的文本描述。训练过程中，模型学习到如何从文本描述中提取关键信息，并生成与描述相符的图像。

3. 功能与特点

生成多样化的图像：DALL-E 可以生成各种风格和内容的图像，无论是现实的还是幻想的。
处理复杂描述：能够理解复杂的文本描述并生成对应的图像，支持多样化的组合和细节。
高分辨率图像：DALL-E 可以生成高分辨率和细节丰富的图像，展示出强大的图像生成能力。

4. 应用场景

艺术创作：DALL-E 可以用于艺术作品的创作，帮助艺术家生成新的灵感和创意。
广告和设计：在广告和设计领域，DALL-E 可以根据描述生成产品图像和设计草图。
教育与研究：用于教育和研究，帮助学生和研究人员理解和探索生成模型的潜力。

总之，DALL-E 是一个展示了人工智能在图像生成领域强大潜力的模型。通过结合 Transformer 架构和向量量化技术，DALL-E 能够生成与文本描述高度一致的高质量图像，为创造性领域提供了新的工具和可能性。随着技术的发展和优化，DALL-E 及其后续模型有望在更多应用场景中发挥重要作用。

5.1.2 DALL-E的工作原理

DALL-E 的工作原理基于将文本描述转换为高质量图像的过程，其核心技术包括 Transformer 架构、向量量化自回归模型（VQ-VAE-2），以及大规模的“图像-文本”对数据集。

1. 输入处理——文本输入

DALL-E 接受一段自然语言文本描述作为输入，该文本描述被编码成一系列的标记（tokens），这些标记是文本中每个词汇的向量表示。

2. 编码阶段——文本编码

使用一个 Transformer 编码器将输入的文本标记转换为一组隐含表示，这些表示捕捉了文本中的语义信息，为后续的图像生成提供基础。

3. 图像生成阶段

（1）向量量化：使用 VQ-VAE-2（Vector Quantized Variational AutoEncoder-2）对图像进行编码和解码，VQ-VAE-2 是一种生成模型，它通过离散的向量来表示图像中的特征。

编码图像：首先，将图像分解为一系列离散的向量码（vector codes）。这些码表示图像中的局部特征，并被量化为一组固定的向量表示。
解码图像：然后，使用解码器将这些量化后的向量转换回图像。这一过程确保了图像生成的高效性和稳定性。

（2）融合编码：将文本编码的隐含表示与图像特征编码结合起来，形成一个综合的表示向量。这一综合表示向量作为生成图像的基础。

4. 自回归生成

自回归模型：使用自回归模型逐步生成图像的每个像素或块。在每一步生成过程中，模型基于先前生成的内容和综合表示向量来预测下一个像素或块。
逐步生成：生成过程从图像的左上角开始，逐步向右下角扩展。每一步生成的结果都会被反馈回模型，作为下一步生成的条件。

5. 解码与输出

图像解码：最终，经过多个生成步骤后，得到一幅完整的图像。解码器将综合表示向量转换为高分辨率、细节丰富的图像。
输出图像：输出的图像与输入的文本描述高度匹配，能够展现文本中所描述的内容和细节。

假设输入文本描述为：“一只在太空中的绿色猫”，DALL-E的处理流程如下所示：

（1）文本编码：将文本描述编码为隐含表示。

（2）向量量化：使用 VQ-VAE-2 将图像特征编码为离散向量。

（3）融合表示：结合文本和图像特征，形成综合表示向量。

（4）自回归生成：基于综合表示向量逐步生成图像，首先生成猫的轮廓，然后添加颜色和背景。

（5）图像解码：最终解码得到一幅绿色的猫在太空中的图像。

DALL-E 的这种工作原理使得它能够生成高质量、细节丰富且与文本描述高度一致的图像，展现了人工智能在创造性任务中的巨大潜力。

5.1.3 基于Discord 和DALL-E的文生图系统

本项目是一个基于Discord 的机器人，旨在利用 OpenAI 的 DALL-E 图像生成器为用户生成图像。通过简单的命令，用户可以在 Discord 服务器中请求图像，机器人将根据用户提供的文本提示生成并返回图像链接。该项目要求用户在 Discord 和 OpenAI 创建相应的账户，并配置必要的 API 密钥，以便正常运行。用户可以灵活地指定生成图像的分辨率，享受高效的图像创作体验。

Discord 是一个集成了语音、视频和文本聊天功能的社交平台，最初主要为游戏玩家设计。用户可以创建和加入“服务器”，在服务器中可以创建多个频道，方便组织讨论和交流。Discord 还支持直播、分享屏幕、发送文件等功能，广泛应用于社区、学习小组、项目团队和兴趣小组等场景。随着其用户群体的扩大，Discord 已逐渐成为各类社群和组织进行交流与协作的重要工具。

实例5-1：基于Discord 和DALL-E的文生图系统（源码路径：codes/5/ClaudeBot-main）

（1）配置文件config.ini提供了 Discord 和 OpenAI API 的必要信息，可以通过更新这些字段来设置应用程序。

[discord]
server_id = YOUR_DISCORD_SERVER_ID_HERE
api_key = YOUR_DISCORD_APPLICATION_API_KEY_HERE

[openai]
organization = YOUR_OPENAI_ORGANIZATION_ID_HERE
api_key = YOUR_OPENAI_API_KEY_HERE

[settings]
default_size = 1024x1024
file_path = images/
file_name_format = %Y_%m_%d_%H_%M_%S

对上述代码的具体说明如下所示：

server_id：Discord 服务器 ID，需要替换为实际的服务器 ID。
api_key：Discord 应用程序的 API 密钥。
organization：OpenAI 组织 ID，需要替换为实际的组织 ID。
api_key：OpenAI API 密钥。
default_size：生成图像的默认大小，这里设置为 1024x1024 像素。
file_path：生成图像保存的目录。
file_name_format：图像文件的命名格式，这里使用日期和时间作为文件名。

（2）文件main.py实现了一个 Discord 机器人，允许用户通过文本提示生成图像。用户可以输入描述，机器人会调用 OpenAI 的 API 生成相应的图像，并将其发送到 Discord 频道。生成的图像可以根据用户的需求调整大小，用户还可以通过按钮操作对生成的图像进行变体、重做或删除等操作。此外，程序还支持从配置文件读取 Discord 和 OpenAI 的相关配置信息，以便于灵活管理和使用。

import discord
import openai
import urllib.request
import os
from datetime import datetime
from configparser import ConfigParser
from discord import app_commands

# 读取配置文件
config_file = "config.ini"
config = ConfigParser(interpolation=None)
config.read(config_file)

# 从配置文件中获取 Discord 和 OpenAI 的配置信息
SERVER_ID = config["discord"]["server_id"]
DISCORD_API_KEY = config["discord"]["api_key"]
OPENAI_ORG = config["openai"]["organization"]
OPENAI_API_KEY = config["openai"]["api_key"]

# 从配置文件中获取文件保存路径和文件名格式
FILE_PATH = config["settings"]["file_path"]
FILE_NAME_FORMAT = config["settings"]["file_name_format"]

# 定义图像大小常量
SIZE_LARGE = "1024x1024"
SIZE_MEDIUM = "512x512"
SIZE_SMALL = "256x256"
SIZE_DEFAULT = config["settings"]["default_size"]

# 创建 Discord 服务器对象
GUILD = discord.Object(id=SERVER_ID)

# 如果文件路径不存在，则创建该目录
if not os.path.isdir(FILE_PATH):
    os.mkdir(FILE_PATH)

# 创建 Discord 客户端类
class Client(discord.Client):
    def __init__(self, *, intents: discord.Intents):
        super().__init__(intents=intents)
        self.tree = app_commands.CommandTree(self)

    async def setup_hook(self):
        self.tree.copy_global_to(guild=GUILD)  # 将全局命令复制到特定的 guild
        await self.tree.sync(guild=GUILD)  # 同步命令

# 设置 Discord 客户端的意图
claude_intents = discord.Intents.default()
claude_intents.messages = True
claude_intents.message_content = True
client = Client(intents=claude_intents)

# 设置 OpenAI 的组织和 API 密钥
openai.organization = OPENAI_ORG
openai.api_key = OPENAI_API_KEY
openai.Model.list()  # 列出可用的模型

# 创建带有按钮的视图类
class Buttons(discord.ui.View):
    def __init__(self, prompt: str, path: str, size: str, message: discord.Message = None):
        super().__init__(timeout=1800)  # 设置超时时间为1800秒
        self.prompt = prompt
        self.path = path
        self.size = size
        self.message = message

    @discord.ui.button(label='Variation', style=discord.ButtonStyle.primary)
    async def variation(self, interaction: discord.Interaction, button: discord.ui.Button):
        await interaction.response.send_message(f"Creating a variation of {self.prompt}...", ephemeral=True)
        response = openai.Image.create_variation(image=open(self.path, "rb"), n=1, size=self.size)
        await send_result(interaction, self.prompt, response, self.size)
        self.stop()

    @discord.ui.button(label='Redo', style=discord.ButtonStyle.grey)
    async def redo(self, interaction: discord.Interaction, button: discord.ui.Button):
        await interaction.response.send_message(f"Redoing {self.prompt}...", ephemeral=True)
        response = openai.Image.create(prompt=self.prompt, n=1, size=self.size)
        await send_result(interaction, self.prompt, response, self.size)
        self.stop()

    @discord.ui.button(label='Delete', style=discord.ButtonStyle.red)
    async def delete(self, interaction: discord.Interaction, button: discord.ui.Button):
        await interaction.message.delete()  # 删除消息
        self.stop()

    async def on_timeout(self):
        if self.message:
            try:
                for button in self.children:
                    button.disabled = True  # 禁用所有按钮
                await self.message.edit(view=self)  # 更新消息视图
            except discord.errors.NotFound:
                pass

# 发送生成的图像结果
async def send_result(interaction: discord.Interaction, prompt: str, response, size: str):
    mention = interaction.user.mention
    channel = interaction.channel
    image_url = response["data"][0]["url"]  # 获取生成的图像 URL
    image_name = download_image(image_url)  # 下载图像并获取文件名
    image_path = f"{FILE_PATH}{image_name}"

    file = discord.File(image_path, filename=image_name)  # 创建文件对象
    embed = discord.Embed(title=prompt)  # 创建嵌入消息
    embed.set_image(url=f"attachment://{image_name}")  # 设置图像

    buttons_view = Buttons(prompt=prompt, path=image_path, size=size)  # 创建按钮视图
    sent_message = await channel.send(file=file, content=f"{mention} Here is your result", embed=embed,
                                       view=buttons_view)
    buttons_view.message = sent_message  # 保存发送的消息对象
    await interaction.delete_original_response()  # 删除原始响应

# 下载图像并返回文件名
def download_image(url: str):
    file_name = f"{datetime.now().strftime(FILE_NAME_FORMAT)}.jpg"  # 根据格式生成文件名
    full_path = f"{FILE_PATH}{file_name}"
    urllib.request.urlretrieve(url, full_path)  # 下载图像
    return file_name

# 当客户端准备好时调用
@client.event
async def on_ready():
    print(f"We have logged in as {client.user}")  # 打印登录信息

# 添加命令到树中
@client.tree.command()
@app_commands.describe(prompt="Description of the image that Claude should generate")
async def claude(interaction: discord.Interaction, prompt: str):
    await interaction.response.defer(ephemeral=True)  # 暂停响应

    size = SIZE_DEFAULT  # 默认图像大小
    # 检查提示中是否包含图像大小信息，并相应更新提示和大小
    if prompt.find(SIZE_SMALL) != -1:
        prompt = prompt.replace(SIZE_SMALL, "")
        size = SIZE_SMALL
    if prompt.find(SIZE_MEDIUM) != -1:
        prompt = prompt.replace(SIZE_MEDIUM, "")
        size = SIZE_MEDIUM
    if prompt.find(SIZE_LARGE) != -1:
        prompt = prompt.replace(SIZE_LARGE, "")
        size = SIZE_LARGE

    await interaction.followup.send(content=f"Processing your image of {prompt}...", ephemeral=True)

    # 调用 OpenAI API 生成图像
    response = openai.Image.create(prompt=prompt, n=1, size=size)
    await send_result(interaction, prompt, response, size)

# 运行 Discord 客户端
client.run(DISCORD_API_KEY)

码农三叔

关注

14
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
(5-1)常用的文生图预训练模型:

DALL-E的名字灵感来自于艺术家 Salvador Dalí 和 Pixar 的机器人角色 WALL-E，体现了该模型将创造力与人工智能结合的理念。WALL-E的主要目是探索人工智能在创造性领域的潜力，尤其是在根据文本生成图像方面。1. 架构与技术细节Transformer 架构： DALL-E 使用了一种变体的 Transformer 模型，称为 VQ-VAE-2（Vector Quantized Variational AutoEncoder-2），来处理文本和图像生成任务。
复制链接

扫一扫