从零体验AIGC

Datawhale 从零体验AIGC

  1. 先跟着步骤创建一个PAI-DSW实例 并且点击打开

在这里插入图片描述

打开的界面如下所示

在这里插入图片描述

  1. 打开终端 下载baseline文件

    终端命令如下:

    git lfs install
    git clone https://www.modelscope.cn/datasets/maochase/kolors.git
    

    运行命令:在这里插入图片描述

  2. 打开baseline文件 安装 Data-JuicerDiffSynth-Studio

    Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程

    DiffSynth-Studio:高效微调训练大模型工具

在这里插入图片描述

  1. 下载完成后 手动重启Notebook kernel

    在这里插入图片描述

  2. 重启后 下载数据集

    from modelscope.msdatasets import MsDataset
    
    ds = MsDataset.load(
        'AI-ModelScope/lowres_anime',
        subset_name='default',
        split='train',
        cache_dir="/mnt/workspace/kolors/data"
    )
    

    保存数据集中的图片及元数据

    import json, os
    from data_juicer.utils.mm_utils import SpecialTokens
    from tqdm import tqdm
    
    
    os.makedirs("./data/lora_dataset/train", exist_ok=True)
    os.makedirs("./data/data-juicer/input", exist_ok=True)
    with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
        for data_id, data in enumerate(tqdm(ds)):
            image = data["image"].convert("RGB")
            image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")
            metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}
            f.write(json.dumps(metadata))
            f.write("\n")
    
  3. 使用 data-juicer 处理数据

    data_juicer_config = """
    # global parameters
    project_name: 'data-process'
    dataset_path: './data/data-juicer/input/metadata.jsonl'  # path to your dataset directory or file
    np: 4  # number of subprocess to process your dataset
    
    text_keys: 'text'
    image_key: 'image'
    image_special_token: '<__dj__image>'
    
    export_path: './data/data-juicer/output/result.jsonl'
    
    # process schedule
    # a list of several process operators with their arguments
    process:
        - image_shape_filter:
            min_width: 1024
            min_height: 1024
            any_or_all: any
        - image_aspect_ratio_filter:
            min_ratio: 0.5
            max_ratio: 2.0
            any_or_all: any
    """
    with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
        file.write(data_juicer_config.strip())
    
    !dj-process --config data/data-juicer/data_juicer_config.yaml
    

    保存处理好的数据

    import pandas as pd
    import os, json
    from PIL import Image
    from tqdm import tqdm
    
    
    texts, file_names = [], []
    os.makedirs("./data/lora_dataset_processed/train", exist_ok=True)
    with open("./data/data-juicer/output/result.jsonl", "r") as file:
        for data_id, data in enumerate(tqdm(file.readlines())):
            data = json.loads(data)
            text = data["text"]
            texts.append(text)
            image = Image.open(data["image"][0])
            image_path = f"./data/lora_dataset_processed/train/{data_id}.jpg"
            image.save(image_path)
            file_names.append(f"{data_id}.jpg")
    data_frame = pd.DataFrame()
    data_frame["file_name"] = file_names
    data_frame["text"] = texts
    data_frame.to_csv("./data/lora_dataset_processed/train/metadata.csv", index=False, encoding="utf-8-sig")
    data_frame
    
  4. 训练模型

    • 下载模型

      from diffsynth import download_models
      
      download_models(["Kolors", "SDXL-vae-fp16-fix"])
      
    • 查看训练脚本的输入参数

      !python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py -h
      
    • 开始训练

      1. 在训练命令中填入 --modelscope_model_id xxxxx 以及 --modelscope_access_token xxxxx 后,训练程序会在结束时自动上传模型到 ModelScope
      2. 部分参数可根据实际需求调整,例如 lora_rank 可以控制 LoRA 模型的参数量
      import os
      
      cmd = """
      python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \
        --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \
        --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \
        --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \
        --lora_rank 16 \
        --lora_alpha 4.0 \
        --dataset_path data/lora_dataset_processed \
        --output_path ./models \
        --max_epochs 1 \
        --center_crop \
        --use_gradient_checkpointing \
        --precision "16-mixed"
      """.strip()
      
      os.system(cmd)
      
    • 加载模型

      from diffsynth import ModelManager, SDXLImagePipeline
      from peft import LoraConfig, inject_adapter_in_model
      import torch
      
      
      def load_lora(model, lora_rank, lora_alpha, lora_path):
          lora_config = LoraConfig(
              r=lora_rank,
              lora_alpha=lora_alpha,
              init_lora_weights="gaussian",
              target_modules=["to_q", "to_k", "to_v", "to_out"],
          )
          model = inject_adapter_in_model(lora_config, model)
          state_dict = torch.load(lora_path, map_location="cpu")
          model.load_state_dict(state_dict, strict=False)
          return model
      
      
      # Load models
      model_manager = ModelManager(torch_dtype=torch.float16, device="cuda",
                                   file_path_list=[
                                       "models/kolors/Kolors/text_encoder",
                                       "models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors",
                                       "models/kolors/Kolors/vae/diffusion_pytorch_model.safetensors"
                                   ])
      pipe = SDXLImagePipeline.from_model_manager(model_manager)
      
      # Load LoRA
      pipe.unet = load_lora(
          pipe.unet,
          lora_rank=16, # This parameter should be consistent with that in your training script.
          lora_alpha=2.0, # lora_alpha can control the weight of LoRA.
          lora_path="models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt"
      )
      
  5. 接下来我们利用训练好的模型来生成图像

    这里我自己稍微改动了一下prompt(因为或许更喜欢黑色发色hh) 然后从唱歌改成了跳舞

    注:

    正向描述词:想要生成的图片应该包含的内容

    反向提示词:不希望生成的图片的内容

torch.manual_seed(0)
image = pipe(
    prompt="二次元,一个黑色短发小女孩,在家中床上坐着,双手托着腮,腿晃着,很无聊,全身,绿色连衣裙",
    negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("1.jpg")

第一张生成好的图像如下

在这里插入图片描述

最后我们将生成好的八张图像,组合在一起

import numpy as np
from PIL import Image


images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]
image = np.concatenate([
    np.concatenate(images[0:2], axis=1),
    np.concatenate(images[2:4], axis=1),
    np.concatenate(images[4:6], axis=1),
    np.concatenate(images[6:8], axis=1),
], axis=0)
image = Image.fromarray(image).resize((1024, 2048))
image

最终效果 挺有意思的hh

在这里插入图片描述

最后就是微调结果上传魔塔和上传笔记啦(

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

limelight-755

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值