【Datawhale × 魔搭 AI 夏令营】可图 Kolors-LoRA 风格故事挑战赛

Datawhale 2024 年 AI 夏令营第四期的学习活动(“AIGC”方向),基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。

赛题分析

Kolors 可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。

关于文本到图像模型,下面的论述摘译自 Wikipedia

文本到图像模型是一种机器学习模型,它接受输入的自然语言描述,并生成与该描述相匹配的图像。

由于深度神经网络的进步,文本到图像模型在 2010 年代中期人工智能蓬勃发展的初期开始得到开发。2022 年,最先进的文本到图像模型(如 OpenAI 的 DALL-E 2、Google Brain 的 Imagen、Stability AI 的 Stable Diffusion 和 Midjourney)的输出结果开始被认为接近真实照片和人类绘画艺术的质量。

Low-rank adaptation (LoRA) 是一种基于适配器的技术,用于有效地微调模型。本次比赛需要在可图 Kolors 模型的基础上训练 LoRA 模型,基于 LoRA 模型生成 8 张图片组成连贯故事,基于 8 图故事,评估 LoRA 风格的美感度及连贯性。

评分包括评委投票的主观评分和美学分数的客观评分。需提交训练的 LoRA 模型文件、LORA 模型的介绍、以及使用该模型生成的至少 8 张图片和对应 prompt。

提示词(prompt)在文生图模型中是指用来引导模型生成特定风格图像的文本,下面结合部分 baseline 进一步学习。

baseline

官方 baseline 是从 GitHub 下载文件后安装,速度不稳定,可以使用 Datawhale 的 baseline。

安装

Data-Juicer 是一个一站式多模态数据处理系统,旨在为大语言模型 (LLM) 提供更高质量、更丰富、更易“消化”的数据。

DiffSynth-Studio 是一个扩散引擎,重组了包括文本编码器、UNet、VAE 等在内的架构,保持了与开源社区模型的兼容性,同时提高了计算性能。

执行该单元格安装完成后,需要手动重启 Kernel。

生成图像

torch.manual_seed(0)
image = pipe(
    prompt="二次元,一个紫色短发小女孩,在家中沙发上坐着,双手托着腮,很无聊,全身,粉色连衣裙",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("1.jpg")

这里设置了文本描述的 prompt 和 negative_prompt,以及相关性、步数和图像尺寸。

下面是我调整后的 prompt,故事围绕一个小女孩在奇幻森林中的冒险展开。

prompts = [
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,手持发光的魔法灯笼,站在一片被月光照亮的奇幻森林入口。夜晚,轻微的雾气在地面飘荡,树叶在微风中轻轻摇曳,远处传来精灵的微弱歌声,神秘而充满期待。",
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,迈步进入森林,手中的魔法灯笼散发出温暖的光芒,照亮了她前行的路。她的表情充满了好奇和兴奋,周围漂浮着发光的魔法精灵,她伸出手,轻轻触碰着它们,微笑着,精灵的光芒与她的灯笼光芒相互辉映,增添了森林的奇幻氛围。",
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,来到了一个神秘的湖泊旁,湖水如镜子般平静,倒映出满天的星空。湖中心闪烁着一个小岛,岛上有一座古老的魔法塔,塔顶的光芒穿透了夜空,女孩的眼神坚定,准备穿越湖泊。",
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,走在一座由彩虹光线构成的魔法桥上,桥梁直通天空中的魔法城堡。城堡的塔楼在月光下闪闪发光,女孩被彩虹的光芒包围,面带微笑,期待着即将到来的冒险。",
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,站在城堡的大殿中央,面前是一只巨大的温柔的火龙。龙的鳞片在火光的映照下闪烁着金色光芒。女孩伸出手,轻轻抚摸龙的头,龙闭上眼睛,彼此之间传递着信任与友谊。",
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,与巨大的温柔的火龙一起走向城堡的宝库,里面存放着一颗发光的蓝色魔法水晶。水晶散发出柔和的光芒,女孩小心翼翼地捧起水晶,脸上充满了满足和喜悦。",
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,手持蓝色魔法水晶,离开城堡,走在通往森林的彩虹桥上。天空逐渐亮起,第一缕阳光照在她的脸上,她的眼中充满了希望与决心。",
    "二次元,一个白色短发的小女孩,穿着绿色连衣裙,回到了奇幻森林的入口,手中的魔法水晶依然在发光。她回头望向森林,微笑着挥手告别,精灵们围绕着她舞动,温暖的阳光穿透树叶,照亮了她的脸庞,充满了平静与满足。"
]

negative_prompts = [
    "丑陋、变形、嘈杂、模糊、低对比度、暗淡、不自然的光线、不合比例的树木、不协调的色彩",
    "丑陋、变形、嘈杂、模糊、低对比度、不自然的精灵、怪异的表情、过度闪光",
    "丑陋、变形、嘈杂、模糊、低对比度、湖面波动过大、反射不清晰、暗淡的星空、无生气的环境",
    "丑陋、变形、嘈杂、模糊、低对比度、不自然的桥梁、过于炫目的光线、暗淡的城堡、无生气的环境",
    "丑陋、变形、嘈杂、模糊、低对比度、凶猛的龙、暗淡的鳞片、恐惧的表情、冷漠的氛围",
    "丑陋、变形、嘈杂、模糊、低对比度、不自然的水晶、暗淡的光芒、过度曝光的场景、冷漠的表情",
    "丑陋、变形、嘈杂、模糊、低对比度、黯淡的天空、没有光泽的水晶、单调的背景、不自然的光影",
    "丑陋、变形、嘈杂、模糊、低对比度、暗淡的阳光、不自然的表情、不协调的色彩、怪异的光线",
]

torch.manual_seed(114514)

for i in range(8):
    image = pipe(
        prompt=prompts[i],
        negative_prompt=negative_prompts[i],
        cfg_scale=4,
        num_inference_steps=50,
        height=1024,
        width=1024,
    )
    image.save(f"story_image_{i+1}.jpg")

有两张我觉得比较好的照片,虽然我也不知道为什么小女孩长大了。

在这里插入图片描述

在这里插入图片描述

import numpy as np
from PIL import Image


images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]
image = np.concatenate(
    [
        np.concatenate(images[0:2], axis=1),
        np.concatenate(images[2:4], axis=1),
        np.concatenate(images[4:6], axis=1),
        np.concatenate(images[6:8], axis=1),
    ],
    axis=0,
)
image = Image.fromarray(image).resize((1024, 2048))
image

将多个生成的图像拼接在一起,生成一张 1024x2048 尺寸的拼接图像。

美学评分

通过下面的命令将目录下的 8 张 jpg 图片移动到 ./images 文件夹中。

mkdir ./images
mv *.jpg ./images

使用官方示例对 ./images 文件夹中的图片进行美学评分,不低于 6 为有效。

import torch, os
from PIL import Image
from transformers import CLIPProcessor
from aesthetics_predictor import AestheticsPredictorV2Linear
from modelscope import snapshot_download


model_id = snapshot_download(
    "AI-ModelScope/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE",
    cache_dir="models/",
)
predictor = AestheticsPredictorV2Linear.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)
device = "cuda"
predictor = predictor.to(device)


def get_aesthetics_score(image):
    inputs = processor(images=image, return_tensors="pt")
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        outputs = predictor(**inputs)
    prediction = outputs.logits
    return prediction.tolist()[0][0]


def evaluate(folder):
    scores = []
    for file_name in os.listdir(folder):
        if os.path.isfile(os.path.join(folder, file_name)):
            image = Image.open(os.path.join(folder, file_name))
            scores.append(get_aesthetics_score(image))
    if len(scores) == 0:
        return 0
    else:
        return sum(scores) / len(scores)


score = evaluate("./images")
print(score)

提交结果

通过下面的命令移动结果文件。

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

下载 output 文件夹中的 LoRA 模型和作品,按要求提交。

通义千问

通义是一款阿里推出的 LLM,性能优秀。借助 LLM,可以很好地理解陌生的代码,并且针对有困惑的点进行提问,还不用担心提出“蠢问题”导致无法得到回答,需要注意的是,LLM 不被认为拥有智慧,它只是对输入的问题匹配生成对应的输出,正确性需要自行判断。

可以通过下面的 prompt 让通义帮我们解答代码问题。

请作为一位 Python 专家,用中文详细论述下面的代码各个模块的功能。

{code}

{code} 部分可以直接导出 baseline,也可以自行整理。

import json
import os

import numpy as np
import pandas as pd
import torch
from data_juicer.utils.mm_utils import SpecialTokens
from diffsynth import ModelManager, SDXLImagePipeline, download_models
from peft import LoraConfig, inject_adapter_in_model
from PIL import Image
from tqdm import tqdm

from modelscope.msdatasets import MsDataset

ds = MsDataset.load(
    "AI-ModelScope/lowres_anime",
    subset_name="default",
    split="train",
    cache_dir="/mnt/workspace/data",
)

os.makedirs("./data/lora_dataset/train", exist_ok=True)
os.makedirs("./data/data-juicer/input", exist_ok=True)
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
    for data_id, data in enumerate(tqdm(ds)):
        image = data["image"].convert("RGB")
        image.save(f"/mnt/workspace/data/lora_dataset/train/{data_id}.jpg")
        metadata = {
            "text": "二次元",
            "image": [f"/mnt/workspace/data/lora_dataset/train/{data_id}.jpg"],
        }
        f.write(json.dumps(metadata))
        f.write("\n")

data_juicer_config = """
# global parameters
project_name: 'data-process'
dataset_path: './data/data-juicer/input/metadata.jsonl'  # path to your dataset directory or file
np: 4  # number of subprocess to process your dataset

text_keys: 'text'
image_key: 'image'
image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl'

# process schedule
# a list of several process operators with their arguments
process:
    - image_shape_filter:
        min_width: 1024
        min_height: 1024
        any_or_all: any
    - image_aspect_ratio_filter:
        min_ratio: 0.5
        max_ratio: 2.0
        any_or_all: any
"""
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    file.write(data_juicer_config.strip())


texts, file_names = [], []
os.makedirs("./data/lora_dataset_processed/train", exist_ok=True)
with open("./data/data-juicer/output/result.jsonl", "r") as file:
    for data_id, data in enumerate(tqdm(file.readlines())):
        data = json.loads(data)
        text = data["text"]
        texts.append(text)
        image = Image.open(data["image"][0])
        image_path = f"./data/lora_dataset_processed/train/{data_id}.jpg"
        image.save(image_path)
        file_names.append(f"{data_id}.jpg")
data_frame = pd.DataFrame()
data_frame["file_name"] = file_names
data_frame["text"] = texts
data_frame.to_csv(
    "./data/lora_dataset_processed/train/metadata.csv",
    index=False,
    encoding="utf-8-sig",
)
data_frame

download_models(["Kolors", "SDXL-vae-fp16-fix"])

cmd = """
python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \
  --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \
  --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \
  --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \
  --lora_rank 16 \
  --lora_alpha 4.0 \
  --dataset_path data/lora_dataset_processed \
  --output_path ./models \
  --max_epochs 1 \
  --center_crop \
  --use_gradient_checkpointing \
  --precision "16-mixed"
""".strip()

os.system(cmd)


def load_lora(model, lora_rank, lora_alpha, lora_path):
    lora_config = LoraConfig(
        r=lora_rank,
        lora_alpha=lora_alpha,
        init_lora_weights="gaussian",
        target_modules=["to_q", "to_k", "to_v", "to_out"],
    )
    model = inject_adapter_in_model(lora_config, model)
    state_dict = torch.load(lora_path, map_location="cpu")
    model.load_state_dict(state_dict, strict=False)
    return model


# Load models
model_manager = ModelManager(
    torch_dtype=torch.float16,
    device="cuda",
    file_path_list=[
        "models/kolors/Kolors/text_encoder",
        "models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors",
        "models/kolors/Kolors/vae/diffusion_pytorch_model.safetensors",
    ],
)
pipe = SDXLImagePipeline.from_model_manager(model_manager)

# Load LoRA
pipe.unet = load_lora(
    pipe.unet,
    lora_rank=16,  # This parameter should be consistent with that in your training script.
    lora_alpha=2.0,  # lora_alpha can control the weight of LoRA.
    lora_path="models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt",
)

torch.manual_seed(0)
image = pipe(
    prompt="二次元,一个紫色短发小女孩,在家中沙发上坐着,双手托着腮,很无聊,全身,粉色连衣裙",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("1.jpg")

torch.manual_seed(1)
image = pipe(
    prompt="二次元,日系动漫,演唱会的观众席,人山人海,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,舞台上衣着华丽的歌星们在唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("2.jpg")

torch.manual_seed(2)
image = pipe(
    prompt="二次元,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,露出憧憬的神情",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度,色情擦边",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("3.jpg")

torch.manual_seed(5)
image = pipe(
    prompt="二次元,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙,对着流星许愿,闭着眼睛,十指交叉,侧面",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度,扭曲的手指,多余的手指",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("4.jpg")

torch.manual_seed(0)
image = pipe(
    prompt="二次元,一个紫色中等长度头发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("5.jpg")

torch.manual_seed(1)
image = pipe(
    prompt="二次元,一个紫色长发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌,手持话筒",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("6.jpg")

torch.manual_seed(7)
image = pipe(
    prompt="二次元,紫色长发少女,穿着黑色连衣裙,试衣间,心情忐忑",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("7.jpg")

torch.manual_seed(0)
image = pipe(
    prompt="二次元,紫色长发少女,穿着黑色礼服,连衣裙,在台上唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("8.jpg")

images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]
image = np.concatenate(
    [
        np.concatenate(images[0:2], axis=1),
        np.concatenate(images[2:4], axis=1),
        np.concatenate(images[4:6], axis=1),
        np.concatenate(images[6:8], axis=1),
    ],
    axis=0,
)
image = Image.fromarray(image).resize((1024, 2048))
image

也可以借助 LLM,帮我们生成以某个主题展开的 8 份相关的提示词,比如:

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧
话剧由8张场景图片生成,你需要输出每张图片的生图提示词

具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡,梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了,梦醒了
8、又回到了学习生活中

生图提示词要求
1、风格
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情

例子:
古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙

同样的,借助 LLM 将提示词整理成代码。

结合下面的代码,将你给出的提示词整理成代码形式
{
torch.manual_seed(0)
image = pipe(
    prompt="二次元,紫色长发少女,穿着黑色礼服,连衣裙,在台上唱歌",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50,
    height=1024,
    width=1024,
)
image.save("8.jpg")
}
  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值