Datawhale X 魔搭 AI夏令营-AIGC方向task02

最新推荐文章于 2024-08-16 22:41:55 发布

e心一意

最新推荐文章于 2024-08-16 22:41:55 发布

阅读量551

点赞数 11

文章标签：人工智能 AIGC AI作画

本文链接：https://blog.csdn.net/Sonderlh/article/details/141200841

版权

在这里插入图片描述

一、AI文生图的介绍

1.1介绍

AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

1.2发展

一个有趣的效应：

AI生图在很长一段时间很难被人们所广泛接纳，一方面是生成的内容没有可用的生产场景，还有很大程度可能是由于“恐怖谷效应”——
在这里插入图片描述
其核心观点是：随着仿真物(如机器人、玩偶等)模拟真实性程度的变化，人们对其亲和力也会产生变化，一般规律是亲和力随着仿真程度增高而增高，但当仿真程度达到一个临界点时，人的亲和反应会陡然跌入谷底，突然产生排斥、恐惧、困惑等负面心理。

1.3AI文生图挑战

观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴
检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，是否存在不自然的光线或阴影
分析像素。放大图片，寻找是否有模糊或像素化的部分。
注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。

而这些细节上的AI特性，也许就是我们在某些特定场景下需要解决的挑战。

1.4探索文生图途径

在这里插入图片描述
工具：魔达社区

模型：Kolors(可图)模型
快手的开源模型，对汉语理解深刻

prompt参考：可图优质咒语书

1.5通过魔达社区探索文生图

1.众多实用工具
例如设计海报：创意海报生成工具

AI生成背景
通过代码将对应的文字显示到对应位置
渲染合成最终图片

利用工具时思考以下几个问题有助于我们开发，
思考tips：

可以用在哪些业务里？有哪些行业在使用？
用的是哪个 AI 模型？
是自己部署的AI模型，还是用的API？
使用到了哪些 AI 能力？
如果要复现，需要做哪些额外的设置和开发？
还可以有哪些优化点？

2.下载模型代码学习开发
可以直接点到空间文件，进行相关代码的查看甚至下载在本地/云服务器复现，以验证思考 & 学习相关的设计开发：
在这里插入图片描述

3.优质学习资料

二、利用AI学习文生图代码

2.1 AI编程工具：

通义千问

2.2操作指南

我们从两个角度来理解代码:

分析代码的主题架构；
逐行代码解析。

baseline框架结构：
在这里插入图片描述
baseline全部代码：

!pip install simple-aesthetics-predictor

!pip install -v -e data-juicer

!pip uninstall pytorch-lightning -y
!pip install peft lightning pandas torchvision

!pip install -e DiffSynth-Studio

from modelscope.msdatasets import MsDataset

ds = MsDataset.load(
    'AI-ModelScope/lowres_anime',
    subset_name='default',
    split='train',
    cache_dir="/mnt/workspace/kolors/data"
)

import json, os
from data_juicer.utils.mm_utils import SpecialTokens
from tqdm import tqdm


os.makedirs("./data/lora_dataset/train", exist_ok=True)
os.makedirs("./data/data-juicer/input", exist_ok=True)
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
    for data_id, data in enumerate(tqdm(ds)):
        image = data["image"].convert("RGB")
        image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")
        metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}
        f.write(json.dumps(metadata))
        f.write("\n")

data_juicer_config = """
# global parameters
project_name: 'data-process'
dataset_path: './data/data-juicer/input/metadata.jsonl'  # path to your dataset directory or file
np: 4  # number of subprocess to process your dataset

text_keys: 'text'
image_key: 'image'
image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl'

# process schedule
# a list of several process operators with their arguments
process:
    - image_shape_filter:
        min_width: 1024
        min_height: 1024
        any_or_all: any
    - image_aspect_ratio_filter:
        min_ratio: 0.5
        max_ratio: 2.0
        any_or_all: any
"""
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    file.write(data_juicer_config.strip())

!dj-process --config data/data-juicer/data_juicer_config.yaml

import pandas as pd
import os, json
from PIL import Image
from tqdm import tqdm


texts, file_names = [], []
os.makedirs("./data/data-juicer/output/images", exist_ok=True)
with open("./data/data-juicer/output/result.jsonl", "r") as f:
    for line in tqdm(f):
        metadata = json.loads(line)
        texts.append(metadata["text"])
        file_names.append(metadata["image"][0])

df = pd.DataFrame({"text": texts, "file_name": file_names})
df.to_csv("./data/data-juicer/output/result.csv", index=False)

df

from transformers import CLIPProcessor, CLIPModel
import torch

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

images = [Image.open(img_path) for img_path in df["file_name"]]
inputs = processor(text=df["text"].tolist(), images=images, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the probabilities

probs

from torch.utils.data import Dataset, DataLoader

class CustomDataset(Dataset):
    def __init__(self, df, processor):
        self.texts = df["text"].tolist()
        self.images = [Image.open(img_path) for img_path in df["file_name"]]
        self.processor = processor

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        inputs = self.processor(text=self.texts[idx], images=self.images[idx], return_tensors="pt", padding=True)
        return inputs

dataset = CustomDataset(df, processor)
dataloader = DataLoader(dataset, batch_size=8)

for batch in dataloader:
    outputs = model(**batch)
    logits_per_image = outputs.logits_per_image
    probs = logits_per_image.softmax(dim=1)
    print(probs)

import torch
from diffusers import StableDiffusionPipeline

torch.manual_seed(1)
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v-1-4", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "二次元，一个紫色长发小女孩穿着粉色吊带漏肩连衣裙，在练习室练习唱歌，手持话筒"
negative_prompt = "丑陋、变形、嘈杂、模糊、低对比度"
guidance_scale = 4
num_inference_steps = 50

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=num_inference_steps,
    height=1024,
    width=1024,
).images[0]

image.save("example_image.png")
image

from PIL import Image

torch.manual_seed(1)
image = pipe(
    prompt="二次元，日系动漫，演唱会的观众席，人山人海，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，舞台上衣着华丽的歌星们在唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("1.jpg")

torch.manual_seed(1)
image = pipe(
    prompt="二次元，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，露出憧憬的神情",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度，色情擦边",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("2.jpg")

torch.manual_seed(2)
image = pipe(
    prompt="二次元，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，露出憧憬的神情",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度，色情擦边",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("3.jpg")

torch.manual_seed(5)
image = pipe(
    prompt="二次元，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙，对着流星许愿，闭着眼睛，十指交叉，侧面",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度，扭曲的手指，多余的手指",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("4.jpg")

torch.manual_seed(0)
image = pipe(
    prompt="二次元，一个紫色中等长度头发小女孩穿着粉色吊带漏肩连衣裙，在练习室练习唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("5.jpg")

torch.manual_seed(1)
image = pipe(
    prompt="二次元，一个紫色长发小女孩穿着粉色吊带漏肩连衣裙，在练习室练习唱歌，手持话筒",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("6.jpg")

torch.manual_seed(7)
image = pipe(
    prompt="二次元，紫色长发少女，穿着黑色连衣裙，试衣间，心情忐忑",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("7.jpg")

torch.manual_seed(0)
image = pipe(
    prompt="二次元，紫色长发少女，穿着黑色礼服，连衣裙，在台上唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("8.jpg")

import numpy as np
from PIL import Image


images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]
image = np.concatenate([
    np.concatenate(images[0:2], axis=1),
    np.concatenate(images[2:4], axis=1),
    np.concatenate(images[4:6], axis=1),
    np.concatenate(images[6:8], axis=1),
], axis=0)
image = Image.fromarray(image).resize((1024, 2048))
image

2.3分析代码主体架构

2.3.1.输入Prompt

你是一个优秀的python开发工程师，现在我们需要你帮我们分析这个代码的主体框架，你需要把代码按照工作流分成几部分，用中文回答我的问题。{此处替换前面的代码}

2.3.2.结果返回

这段代码主要完成了以下几个功能：

安装和卸载依赖包：
- 安装 simple-aesthetics-predictor, data-juicer, peft, lightning, pandas, torchvision 和 DiffSynth-Studio 这些Python库。
- 卸载 pytorch-lightning。
加载数据集：
- 使用 ModelScope 加载名为 AI-ModelScope/lowres_anime 的数据集，并指定子集名称为 default，分割为训练集，并设置缓存目录。
准备训练图像数据：
- 创建必要的文件夹结构，并遍历数据集中的每一条记录。
- 将图像保存到指定路径，并将图像路径和对应的文本描述写入到 metadata.jsonl 文件中。
配置并运行 Data-Juicer 数据处理流程：
- 定义了 Data-Juicer 的配置文件 data_juicer_config.yaml，包括了数据集路径、图像过滤条件等参数。
- 使用 Data-Juicer 对数据进行预处理，如过滤不符合尺寸要求或长宽比异常的图像。
整理处理后的数据：
- 读取 Data-Juicer 输出的结果，并创建一个 DataFrame 以方便后续使用。
- 将整理好的数据保存为 CSV 文件。
计算图像与文本的相似度：
- 使用 CLIP 模型来计算图像与文本之间的相似度分数，并输出概率分布。
定义和使用 PyTorch 数据集类：
- 定义了一个 CustomDataset 类来处理数据集，包括图像和文本的配对。
- 使用 DataLoader 来批量加载数据，并通过 CLIP 模型计算每个批次的相似度。
生成图像：
- 使用 StableDiffusionPipeline 根据不同的提示（prompt）和负面提示（negative prompt）生成一系列二次元风格的图像。
- 每次生成前都设置了随机种子以确保结果可复现。
合并生成的图像：
- 最后，将生成的多个图像拼接成一张大图，并调整大小以便于展示。

综上所述，整个代码可以分为以下几个主要部分：

环境配置：安装和卸载相关库。
数据集准备：加载原始数据集，并对其进行预处理。
数据处理：利用 Data-Juicer 对数据进行过滤和整理。
相似度计算：使用 CLIP 模型计算图像和文本之间的相似度。
模型数据集封装：定义数据集类，并通过 DataLoader 批量处理数据。
图像生成：使用 StableDiffusionPipeline 根据提示生成图像。
结果展示：将生成的图像进行拼接和展示。

2.4逐行解释代码

好的，下面是这段代码的逐行分析及其对应的中文注释：

第一部分：安装和卸载依赖包

# 安装 simple-aesthetics-predictor 库
!pip install simple-aesthetics-predictor

# 安装 data-juicer 库，并以可编辑模式安装
!pip install -v -e data-juicer

# 卸载 pytorch-lightning 库
!pip uninstall pytorch-lightning -y

# 安装 peft, lightning, pandas, torchvision 库
!pip install peft lightning pandas torchvision

# 安装 DiffSynth-Studio 库，并以可编辑模式安装
!pip install -e DiffSynth-Studio

第二部分：加载和处理数据集

# 导入 ModelScope 的数据集模块
from modelscope.msdatasets import MsDataset

# 加载数据集
ds = MsDataset.load(
    'AI-ModelScope/lowres_anime',       # 数据集名称
    subset_name='default',              # 子集名称
    split='train',                      # 分割为训练集
    cache_dir="/mnt/workspace/kolors/data"  # 缓存目录
)

# 导入必要的库
import json, os
from data_juicer.utils.mm_utils import SpecialTokens
from tqdm import tqdm

# 创建目录，如果不存在则创建
os.makedirs("./data/lora_dataset/train", exist_ok=True)
os.makedirs("./data/data-juicer/input", exist_ok=True)

# 打开文件以写入 JSONL 格式的元数据
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
    # 遍历数据集中的每一项
    for data_id, data in enumerate(tqdm(ds)):
        # 转换图像为 RGB 格式并保存
        image = data["image"].convert("RGB")
        image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")
        
        # 创建元数据条目
        metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}
        
        # 将元数据写入文件
        f.write(json.dumps(metadata))
        f.write("\n")

第三部分：配置并运行 Data-Juicer 数据处理流程

# 定义 Data-Juicer 的配置字符串
data_juicer_config = """
# 全局参数
project_name: 'data-process'
dataset_path: './data/data-juicer/input/metadata.jsonl'  # 数据集目录或文件路径
np: 4  # 处理数据集的子进程数量

text_keys: 'text'
image_key: 'image'
image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl'

# 处理计划
# 一系列数据处理操作及其参数
process:
    - image_shape_filter:
        min_width: 1024
        min_height: 1024
        any_or_all: any
    - image_aspect_ratio_filter:
        min_ratio: 0.5
        max_ratio: 2.0
        any_or_all: any
"""

# 将配置字符串写入文件
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    file.write(data_juicer_config.strip())

# 使用 Data-Juicer 处理数据
!dj-process --config data/data-juicer/data_juicer_config.yaml

第四部分：整理处理后的数据

# 导入必要的库
import pandas as pd
import os, json
from PIL import Image
from tqdm import tqdm

# 初始化列表来存储文本和文件名
texts, file_names = [], []

# 创建目录，如果不存在则创建
os.makedirs("./data/data-juicer/output/images", exist_ok=True)

# 读取 Data-Juicer 输出的处理后数据
with open("./data/data-juicer/output/result.jsonl", "r") as f:
    # 遍历每一条数据
    for line in tqdm(f):
        # 解析 JSON 数据
        metadata = json.loads(line)
        
        # 提取文本和图像路径
        texts.append(metadata["text"])
        file_names.append(metadata["image"][0])

# 创建 DataFrame
df = pd.DataFrame({"text": texts, "file_name": file_names})

# 保存为 CSV 文件
df.to_csv("./data/data-juicer/output/result.csv", index=False)

# 显示 DataFrame
df

第五部分：使用 CLIP 模型计算图像与文本的相似度

# 导入必要的库
from transformers import CLIPProcessor, CLIPModel
import torch

# 加载预训练的 CLIP 模型
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# 加载图像数据
images = [Image.open(img_path) for img_path in df["file_name"]]

# 对图像和文本进行预处理
inputs = processor(text=df["text"].tolist(), images=images, return_tensors="pt", padding=True)

# 使用 CLIP 模型计算输出
outputs = model(**inputs)

# 获取图像与文本的相似度分数
logits_per_image = outputs.logits_per_image

# 计算概率分布
probs = logits_per_image.softmax(dim=1)

# 输出概率分布
probs

第六部分：定义和使用 PyTorch 数据集类

# 导入必要的库
from torch.utils.data import Dataset, DataLoader

# 定义自定义数据集类
class CustomDataset(Dataset):
    def __init__(self, df, processor):
        self.texts = df["text"].tolist()  # 文本列表
        self.images = [Image.open(img_path) for img_path in df["file_name"]]  # 图像列表
        self.processor = processor  # 处理器
        
    def __len__(self):
        return len(self.texts)  # 返回数据集中样本的数量
    
    def __getitem__(self, idx):
        # 对单个样本进行预处理
        inputs = self.processor(text=self.texts[idx], images=self.images[idx], return_tensors="pt", padding=True)
        return inputs

# 创建数据集实例
dataset = CustomDataset(df, processor)

# 创建 DataLoader 实例
dataloader = DataLoader(dataset, batch_size=8)

# 遍历 DataLoader 中的每一个批次
for batch in dataloader:
    # 使用 CLIP 模型计算输出
    outputs = model(**batch)
    
    # 获取图像与文本的相似度分数
    logits_per_image = outputs.logits_per_image
    
    # 计算概率分布
    probs = logits_per_image.softmax(dim=1)
    
    # 输出概率分布
    print(probs)

第七部分：使用 StableDiffusionPipeline 生成图像

# 导入必要的库
import torch
from diffusers import StableDiffusionPipeline

# 设置随机种子以获得可重复的结果
torch.manual_seed(1)

# 加载预训练的 StableDiffusion 模型
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v-1-4", torch_dtype=torch.float16)

# 将模型移到 GPU
pipe = pipe.to("cuda")

# 设置提示 (prompt) 和负面提示 (negative prompt)
prompt = "二次元，一个紫色长发小女孩穿着粉色吊带漏肩连衣裙，在练习室练习唱歌，手持话筒"
negative_prompt = "丑陋、变形、嘈杂、模糊、低对比度"

# 设置其他参数
guidance_scale = 4
num_inference_steps = 50

# 使用模型生成图像
image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=num_inference_steps,
    height=1024,
    width=1024,
).images[0]

# 保存图像
image.save("example_image.png")

# 展示图像
image

第八部分：合并生成的图像

# 导入必要的库
import numpy as np
from PIL import Image

# 加载所有生成的图像
images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]

# 拼接图像
image = np.concatenate([
    np.concatenate(images[0:2], axis=1),  # 第一行
    np.concatenate(images[2:4], axis=1),  # 第二行
    np.concatenate(images[4:6], axis=1),  # 第三行
    np.concatenate(images[6:8], axis=1),  # 第四行
], axis=0)

# 调整大小
image = Image.fromarray(image).resize((1024, 2048))

# 展示最终的图像
image

这段代码覆盖了从数据集加载、数据处理、特征提取、模型训练到图像生成等多个方面。

三、实战演练一一基于话剧的连环画制作

3.1提示词

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧
话剧由8张场景图片生成，你需要输出每张图片的生图提示词

具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡，梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了，梦醒了
8、又回到了学习生活中

生图提示词要求
1、风格为古风
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情

例子：
古风，水墨画，一个黑色长发少女，坐在教室里，盯着黑板，深思，上半身，红色长裙

3.2结果

我们可以看到ai给出了一个较为合适的提示词：

场景 1: 女主正在上课
提示词: 古风, 水墨画, 一位黑发少女, 穿着红色长裙, 坐在教室中, 盯着黑板, 若有所思, 上半身
场景 2: 开始睡着了
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 在书桌上小憩, 静谧安详, 上半身
场景 3: 进入梦乡，梦到自己站在路旁
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 站在幽静的小道旁, 仰望星空, 全身
场景 4: 王子骑马而来
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 站在幽静的小道旁, 远处一匹白马上的英俊少年, 全身
场景 5: 两人相谈甚欢
提示词: 古风, 水墨画, 黑发少女与英俊少年, 穿着红色长裙与白色长袍, 并肩而坐, 谈笑风生, 全身
场景 6: 一起坐在马背上
提示词: 古风, 水墨画, 黑发少女与英俊少年, 穿着红色长裙与白色长袍, 骑在马上, 朝向远方, 全身
场景 7: 下课了，梦醒了
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 从梦中惊醒, 看着空荡荡的教室, 上半身
场景 8: 又回到了学习生活中
提示词: 古风, 水墨画, 黑发少女, 穿着红色长裙, 坐在书桌前, 手执毛笔, 专心致志地书写, 上半身

3.3修改提示词得出结果

在baseline文件中修改提示词，运行baseline（详见上文task01）即可得出结果

e心一意

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 魔搭 AI夏令营-AIGC方向task02

AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。# 导入必要的库# 定义自定义数据集类self.texts = df["text"].tolist() # 文本列表self.images = [Image.open(img_path) for img_path in df["file_name"]] # 图像列表self.processor = processor # 处理器。
复制链接

扫一扫