Datawhale X 魔搭 AI夏令营-AIGC方向task02

在这里插入图片描述

一、AI文生图的介绍

1.1介绍

AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

1.2发展

一个有趣的效应:

AI生图在很长一段时间很难被人们所广泛接纳,一方面是生成的内容没有可用的生产场景,还有很大程度可能是由于“恐怖谷效应”——
在这里插入图片描述
其核心观点是:随着仿真物(如机器人、玩偶等)模拟真实性程度的变化,人们对其亲和力也会产生变化,一般规律是亲和力随着仿真程度增高而增高,但当仿真程度达到一个临界点时,人的亲和反应会陡然跌入谷底,突然产生排斥、恐惧、困惑等负面心理。

1.3AI文生图挑战

  • 观察图片的细节。仔细检查人物的面部特征,尤其是眼睛和嘴巴

  • 检查光线和阴影。分析图片中的光源是否一致,阴影的方向是否与光源相符,是否存在不自然的光线或阴影

  • 分析像素。放大图片,寻找是否有模糊或像素化的部分。

  • 注意背景。检查背景中是否有不协调的元素,比如物体边缘是否平滑,背景中是否有不自然的重复模式。

    而这些细节上的AI特性,也许就是我们在某些特定场景下需要解决的挑战。

1.4探索文生图途径

在这里插入图片描述
工具:魔达社区

模型:Kolors(可图)模型
快手的开源模型,对汉语理解深刻

prompt参考:可图优质咒语书

1.5通过魔达社区探索文生图

1.众多实用工具
例如设计海报创意海报生成工具

  1. AI生成背景
  2. 通过代码将对应的文字显示到对应位置
  3. 渲染合成最终图片

利用工具时思考以下几个问题有助于我们开发,
思考tips

  • 可以用在哪些业务里?有哪些行业在使用?
  • 用的是哪个 AI 模型?
  • 是自己部署的AI模型,还是用的API?
  • 使用到了哪些 AI 能力?
  • 如果要复现,需要做哪些额外的设置和开发?
  • 还可以有哪些优化点?

2.下载模型代码学习开发
可以直接点到空间文件,进行相关代码的查看甚至下载在 本地/云服务器 复现,以验证思考 & 学习相关的设计开发:
在这里插入图片描述
在这里插入图片描述
3.优质学习资料
在这里插入图片描述

二、利用AI学习文生图代码

2.1 AI编程工具:

通义千问

2.2操作指南

我们从两个角度来理解代码:

  1. 分析代码的主题架构;
  2. 逐行代码解析。

baseline框架结构:
在这里插入图片描述
baseline全部代码:

!pip install simple-aesthetics-predictor

!pip install -v -e data-juicer

!pip uninstall pytorch-lightning -y
!pip install peft lightning pandas torchvision

!pip install -e DiffSynth-Studio

from modelscope.msdatasets import MsDataset

ds = MsDataset.load(
    'AI-ModelScope/lowres_anime',
    subset_name='default',
    split='train',
    cache_dir="/mnt/workspace/kolors/data"
)

import json, os
from data_juicer.utils.mm_utils import SpecialTokens
from tqdm import tqdm


os.makedirs("./data/lora_dataset/train", exist_ok=True)
os.makedirs("./data/data-juicer/input", exist_ok=True)
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
    for data_id, data in enumerate(tqdm(ds)):
        image = data["image"].convert("RGB")
        image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")
        metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}
        f.write(json.dumps(metadata))
        f.write("\n")

data_juicer_config = """
# global parameters
project_name: 'data-process'
dataset_path: './data/data-juicer/input/metadata.jsonl'  # path to your dataset directory or file
np: 4  # number of subprocess to process your dataset

text_keys: 'text'
image_key: 'image'
image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl'

# process schedule
# a list of several process operators with their arguments
process:
    - image_shape_filter:
        min_width: 1024
        min_height: 1024
        any_or_all: any
    - image_aspect_ratio_filter:
        min_ratio: 0.5
        max_ratio: 2.0
        any_or_all: any
"""
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    file.write(data_juicer_config.strip())

!dj-process --config data/data-juicer/data_juicer_config.yaml

import pandas as pd
import os, json
from PIL import Image
from tqdm import tqdm


texts, file_names = [], []
os.makedirs("./data/data-juicer/output/images", exist_ok=True)
with open("./data/data-juicer/output/result.jsonl", "r") as f:
    for line in tqdm(f):
        metadata = json.loads(line)
        texts.append(metadata["text"])
        file_names.append(metadata["image"][0])

df = pd.DataFrame({"text": texts, "file_name": file_names})
df.to_csv("./data/data-juicer/output/result.csv", index=False)

df

from transformers import CLIPProcessor, CLIPModel
import torch

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

images = [Image.open(img_path) for img_path in df["file_name"]]
inputs = processor(text=df["text"].tolist(), images=images, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the probabilities

probs

from torch.utils.data import Dataset, DataLoader

class CustomDataset(Dataset):
    def __init__(self, df, processor):
        self.texts = df["text"].tolist()
        self.images = [Image.open(img_path) for img_path in df["file_name"]]
        self.processor = processor

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        inputs = self.processor(text=self.texts[idx], images=self.images[idx], return_tensors="pt", padding=True)
        return inputs

dataset = CustomDataset(df, processor)
dataloader = DataLoader(dataset, batch_size=8)

for batch in dataloader:
    outputs = model(**batch)
    logits_per_image = outputs.logits_per_image
    probs = logits_per_image.softmax(dim=1)
    print(probs)

import torch
from diffusers import StableDiffusionPipeline

torch.manual_seed(1)
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v-1-4", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "二次元,一个紫色长发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌,手持话筒"
negative_prompt = "丑陋、变形、嘈杂、模糊、低对比度"
guidance_scale = 4
num_inference_steps = 50

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=num_inference_steps,
    height=1024,
    width=1024,
).images[0]

image.save("example_image.png")
image

from PIL import Image

torch.manual_seed(1)
image = pipe(
    prompt="二次元,日系动漫,演唱会的观众席,人山人海,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,舞台上衣着华丽的歌星们在唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("1.jpg")

torch.manual_seed(1)
image = pipe(
    prompt="二次元,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,露出憧憬的神情",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度,色情擦边",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("2.jpg")

torch.manual_seed(2)
image = pipe(
    prompt="二次元,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,露出憧憬的神情",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度,色情擦边",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("3.jpg")

torch.manual_seed(5)
image = pipe(
    prompt="二次元,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙,对着流星许愿,闭着眼睛,十指交叉,侧面",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度,扭曲的手指,多余的手指",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("4.jpg")

torch.manual_seed(0)
image = pipe(
    prompt="二次元,一个紫色中等长度头发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("5.jpg")

torch.manual_seed(1)
image = pipe(
    prompt="二次元,一个紫色长发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌,手持话筒",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("6.jpg")

torch.manual_seed(7)
image = pipe(
    prompt="二次元,紫色长发少女,穿着黑色连衣裙,试衣间,心情忐忑",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("7.jpg")

torch.manual_seed(0)
image = pipe(
    prompt="二次元,紫色长发少女,穿着黑色礼服,连衣裙,在台上唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("8.jpg")

import numpy as np
from PIL import Image


images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]
image = np.concatenate([
    np.concatenate(images[0:2], axis=1),
    np.concatenate(images[2:4], axis=1),
    np.concatenate(images[4:6], axis=1),
    np.concatenate(images[6:8], axis=1),
], axis=0)
image = Image.fromarray(image).resize((1024, 2048))
image

2.3分析代码主体架构

2.3.1.输入Prompt

你是一个优秀的python开发工程师,现在我们需要你帮我们分析这个代码的主体框架,你需要把代码按照工作流分成几部分,用中文回答我的问题。{此处替换前面的代码}

2.3.2.结果返回

这段代码主要完成了以下几个功能:

  1. 安装和卸载依赖包

    • 安装 simple-aesthetics-predictor, data-juicer, peft, lightning, pandas, torchvisionDiffSynth-Studio 这些Python库。
    • 卸载 pytorch-lightning
  2. 加载数据集

    • 使用 ModelScope 加载名为 AI-ModelScope/lowres_anime 的数据集,并指定子集名称为 default,分割为训练集,并设置缓存目录。
  3. 准备训练图像数据

    • 创建必要的文件夹结构,并遍历数据集中的每一条记录。
    • 将图像保存到指定路径,并将图像路径和对应的文本描述写入到 metadata.jsonl 文件中。
  4. 配置并运行 Data-Juicer 数据处理流程

    • 定义了 Data-Juicer 的配置文件 data_juicer_config.yaml,包括了数据集路径、图像过滤条件等参数。
    • 使用 Data-Juicer 对数据进行预处理,如过滤不符合尺寸要求或长宽比异常的图像。
  5. 整理处理后的数据

    • 读取 Data-Juicer 输出的结果,并创建一个 DataFrame 以方便后续使用。
    • 将整理好的数据保存为 CSV 文件。
  6. 计算图像与文本的相似度

    • 使用 CLIP 模型来计算图像与文本之间的相似度分数,并输出概率分布。
  7. 定义和使用 PyTorch 数据集类

    • 定义了一个 CustomDataset 类来处理数据集,包括图像和文本的配对。
    • 使用 DataLoader 来批量加载数据,并通过 CLIP 模型计算每个批次的相似度。
  8. 生成图像

    • 使用 StableDiffusionPipeline 根据不同的提示(prompt)和负面提示(negative prompt)生成一系列二次元风格的图像。
    • 每次生成前都设置了随机种子以确保结果可复现。
  9. 合并生成的图像

    • 最后,将生成的多个图像拼接成一张大图,并调整大小以便于展示。

综上所述,整个代码可以分为以下几个主要部分:

  1. 环境配置:安装和卸载相关库。
  2. 数据集准备:加载原始数据集,并对其进行预处理。
  3. 数据处理:利用 Data-Juicer 对数据进行过滤和整理。
  4. 相似度计算:使用 CLIP 模型计算图像和文本之间的相似度。
  5. 模型数据集封装:定义数据集类,并通过 DataLoader 批量处理数据。
  6. 图像生成:使用 StableDiffusionPipeline 根据提示生成图像。
  7. 结果展示:将生成的图像进行拼接和展示。

2.4逐行解释代码

好的,下面是这段代码的逐行分析及其对应的中文注释:

第一部分:安装和卸载依赖包

# 安装 simple-aesthetics-predictor 库
!pip install simple-aesthetics-predictor

# 安装 data-juicer 库,并以可编辑模式安装
!pip install -v -e data-juicer

# 卸载 pytorch-lightning 库
!pip uninstall pytorch-lightning -y

# 安装 peft, lightning, pandas, torchvision 库
!pip install peft lightning pandas torchvision

# 安装 DiffSynth-Studio 库,并以可编辑模式安装
!pip install -e DiffSynth-Studio

第二部分:加载和处理数据集

# 导入 ModelScope 的数据集模块
from modelscope.msdatasets import MsDataset

# 加载数据集
ds = MsDataset.load(
    'AI-ModelScope/lowres_anime',       # 数据集名称
    subset_name='default',              # 子集名称
    split='train',                      # 分割为训练集
    cache_dir="/mnt/workspace/kolors/data"  # 缓存目录
)
# 导入必要的库
import json, os
from data_juicer.utils.mm_utils import SpecialTokens
from tqdm import tqdm

# 创建目录,如果不存在则创建
os.makedirs("./data/lora_dataset/train", exist_ok=True)
os.makedirs("./data/data-juicer/input", exist_ok=True)

# 打开文件以写入 JSONL 格式的元数据
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
    # 遍历数据集中的每一项
    for data_id, data in enumerate(tqdm(ds)):
        # 转换图像为 RGB 格式并保存
        image = data["image"].convert("RGB")
        image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")
        
        # 创建元数据条目
        metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}
        
        # 将元数据写入文件
        f.write(json.dumps(metadata))
        f.write("\n")

第三部分:配置并运行 Data-Juicer 数据处理流程

# 定义 Data-Juicer 的配置字符串
data_juicer_config = """
# 全局参数
project_name: 'data-process'
dataset_path: './data/data-juicer/input/metadata.jsonl'  # 数据集目录或文件路径
np: 4  # 处理数据集的子进程数量

text_keys: 'text'
image_key: 'image'
image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl'

# 处理计划
# 一系列数据处理操作及其参数
process:
    - image_shape_filter:
        min_width: 1024
        min_height: 1024
        any_or_all: any
    - image_aspect_ratio_filter:
        min_ratio: 0.5
        max_ratio: 2.0
        any_or_all: any
"""

# 将配置字符串写入文件
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    file.write(data_juicer_config.strip())

# 使用 Data-Juicer 处理数据
!dj-process --config data/data-juicer/data_juicer_config.yaml

第四部分:整理处理后的数据

# 导入必要的库
import pandas as pd
import os, json
from PIL import Image
from tqdm import tqdm

# 初始化列表来存储文本和文件名
texts, file_names = [], []

# 创建目录,如果不存在则创建
os.makedirs("./data/data-juicer/output/images", exist_ok=True)

# 读取 Data-Juicer 输出的处理后数据
with open("./data/data-juicer/output/result.jsonl", "r") as f:
    # 遍历每一条数据
    for line in tqdm(f):
        # 解析 JSON 数据
        metadata = json.loads(line)
        
        # 提取文本和图像路径
        texts.append(metadata["text"])
        file_names.append(metadata["image"][0])

# 创建 DataFrame
df = pd.DataFrame({"text": texts, "file_name": file_names})

# 保存为 CSV 文件
df.to_csv("./data/data-juicer/output/result.csv", index=False)

# 显示 DataFrame
df

第五部分:使用 CLIP 模型计算图像与文本的相似度

# 导入必要的库
from transformers import CLIPProcessor, CLIPModel
import torch

# 加载预训练的 CLIP 模型
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# 加载图像数据
images = [Image.open(img_path) for img_path in df["file_name"]]

# 对图像和文本进行预处理
inputs = processor(text=df["text"].tolist(), images=images, return_tensors="pt", padding=True)

# 使用 CLIP 模型计算输出
outputs = model(**inputs)

# 获取图像与文本的相似度分数
logits_per_image = outputs.logits_per_image

# 计算概率分布
probs = logits_per_image.softmax(dim=1)

# 输出概率分布
probs

第六部分:定义和使用 PyTorch 数据集类

# 导入必要的库
from torch.utils.data import Dataset, DataLoader

# 定义自定义数据集类
class CustomDataset(Dataset):
    def __init__(self, df, processor):
        self.texts = df["text"].tolist()  # 文本列表
        self.images = [Image.open(img_path) for img_path in df["file_name"]]  # 图像列表
        self.processor = processor  # 处理器
        
    def __len__(self):
        return len(self.texts)  # 返回数据集中样本的数量
    
    def __getitem__(self, idx):
        # 对单个样本进行预处理
        inputs = self.processor(text=self.texts[idx], images=self.images[idx], return_tensors="pt", padding=True)
        return inputs

# 创建数据集实例
dataset = CustomDataset(df, processor)

# 创建 DataLoader 实例
dataloader = DataLoader(dataset, batch_size=8)

# 遍历 DataLoader 中的每一个批次
for batch in dataloader:
    # 使用 CLIP 模型计算输出
    outputs = model(**batch)
    
    # 获取图像与文本的相似度分数
    logits_per_image = outputs.logits_per_image
    
    # 计算概率分布
    probs = logits_per_image.softmax(dim=1)
    
    # 输出概率分布
    print(probs)

第七部分:使用 StableDiffusionPipeline 生成图像

# 导入必要的库
import torch
from diffusers import StableDiffusionPipeline

# 设置随机种子以获得可重复的结果
torch.manual_seed(1)

# 加载预训练的 StableDiffusion 模型
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v-1-4", torch_dtype=torch.float16)

# 将模型移到 GPU
pipe = pipe.to("cuda")

# 设置提示 (prompt) 和负面提示 (negative prompt)
prompt = "二次元,一个紫色长发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌,手持话筒"
negative_prompt = "丑陋、变形、嘈杂、模糊、低对比度"

# 设置其他参数
guidance_scale = 4
num_inference_steps = 50

# 使用模型生成图像
image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=num_inference_steps,
    height=1024,
    width=1024,
).images[0]

# 保存图像
image.save("example_image.png")

# 展示图像
image

第八部分:合并生成的图像

# 导入必要的库
import numpy as np
from PIL import Image

# 加载所有生成的图像
images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]

# 拼接图像
image = np.concatenate([
    np.concatenate(images[0:2], axis=1),  # 第一行
    np.concatenate(images[2:4], axis=1),  # 第二行
    np.concatenate(images[4:6], axis=1),  # 第三行
    np.concatenate(images[6:8], axis=1),  # 第四行
], axis=0)

# 调整大小
image = Image.fromarray(image).resize((1024, 2048))

# 展示最终的图像
image

这段代码覆盖了从数据集加载、数据处理、特征提取、模型训练到图像生成等多个方面。

三、实战演练一一基于话剧的连环画制作

3.1提示词

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧
话剧由8张场景图片生成,你需要输出每张图片的生图提示词

具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡,梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了,梦醒了
8、又回到了学习生活中

生图提示词要求
1、风格为古风
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情

例子:
古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙

3.2结果

我们可以看到ai给出了一个较为合适的提示词:

场景 1: 女主正在上课
提示词: 古风, 水墨画, 一位黑发少女, 穿着红色长裙, 坐在教室中, 盯着黑板, 若有所思, 上半身
场景 2: 开始睡着了
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 在书桌上小憩, 静谧安详, 上半身
场景 3: 进入梦乡,梦到自己站在路旁
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 站在幽静的小道旁, 仰望星空, 全身
场景 4: 王子骑马而来
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 站在幽静的小道旁, 远处一匹白马上的英俊少年, 全身
场景 5: 两人相谈甚欢
提示词: 古风, 水墨画, 黑发少女与英俊少年, 穿着红色长裙与白色长袍, 并肩而坐, 谈笑风生, 全身
场景 6: 一起坐在马背上
提示词: 古风, 水墨画, 黑发少女与英俊少年, 穿着红色长裙与白色长袍, 骑在马上, 朝向远方, 全身
场景 7: 下课了,梦醒了
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 从梦中惊醒, 看着空荡荡的教室, 上半身
场景 8: 又回到了学习生活中
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 坐在书桌前, 手执毛笔, 专心致志地书写, 上半身

3.3修改提示词得出结果

在baseline文件中修改提示词,运行baseline(详见上文task01)即可得出结果

  • 11
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值