task2任务
1. 深入理解基础代码
首先,通过对baseline代码的详细分析,理解其工作原理和结构。这将帮助大家在后续任务中更好地利用这些代码。
2. 提升自学习能力
通过学习如何使用AI工具来辅助学习,包括代码阅读和理解的技巧。掌握这些技能将有助于在未来的学习和工作中更高效地应对各种挑战。
3. 探索AI生成图像的能力与局限
- AI生成图像(AIGC):AIGC是通过人工智能技术自动生成内容,AI生成图像是AIGC的一个重要应用。它在摄影、美术等领域带来了颠覆性的变化,但也带来了挑战。
- Deepfake技术:利用AI生成的伪造媒体可能会被滥用,对政治、经济和法律领域带来严重影响。
- AI生图的历史和发展:从最早的机械画作到现代的深度学习模型,如DALL-E等,AI生成图像技术不断发展。
- AI生图的难点和挑战:包括图像生成质量、风格匹配和“AI味”问题(AI生成图像的违和感)。
4. 实际操作
- 工具介绍:使用Kolors(可图)模型和其他AI生图工具来生成高质量图像。Kolors模型支持中英文,并能生成各种风格的图像。
- 代码解析:示例代码涉及数据处理、图像生成和处理的步骤,包括如何使用
StableDiffusionPipeline
生成图像。
这里是代码的详细解释:
1. 安装软件包
# 安装 Data-Juicer 和 DiffSynth-Studio
!pip install simple-aesthetics-predictor
!pip install -v -e data-juicer
!pip uninstall pytorch-lightning -y
!pip install peft lightning pandas torchvision
!pip install -e DiffSynth-Studio
- simple-aesthetics-predictor: 安装用于评估图像美学的包。
- data-juicer: 安装用于处理数据集的包。
- pytorch-lightning: 卸载当前版本(可能是为了避免兼容性问题)。
- peft, lightning, pandas, torchvision: 安装模型训练和数据处理所需的库。
- DiffSynth-Studio: 安装DiffSynth-Studio包,用于训练和生成图像。
2. 下载数据集
from modelscope.msdatasets import MsDataset
ds = MsDataset.load(
'AI-ModelScope/lowres_anime',
subset_name='default',
split='train',
cache_dir="/mnt/workspace/kolors/data"
)
- 从ModelScope仓库下载“lowres_anime”数据集,并将其保存到指定的缓存目录。
3. 生成数据集
import json, os
from data_juicer.utils.mm_utils import SpecialTokens
from tqdm import tqdm
os.makedirs("./data/lora_dataset/train", exist_ok=True)
os.makedirs("./data/data-juicer/input", exist_ok=True)
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
for data_id, data in enumerate(tqdm(ds)):
image = data["image"].convert("RGB")
image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")
metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}
f.write(json.dumps(metadata))
f.write("\n")
- 创建目录 用于保存图像和元数据。
- 将图像转换为RGB格式,保存到指定目录,并生成包含图像路径和描述的元数据文件。
4. 配置和运行 Data-Juicer
data_juicer_config = """
# global parameters
project_name: 'data-process'
dataset_path: './data/data-juicer/input/metadata.jsonl'
np: 4
text_keys: 'text'
image_key: 'image'
image_special_token: '<__dj__image>'
export_path: './data/data-juicer/output/result.jsonl'
process:
- image_shape_filter:
min_width: 1024
min_height: 1024
any_or_all: any
- image_aspect_ratio_filter:
min_ratio: 0.5
max_ratio: 2.0
any_or_all: any
"""
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
file.write(data_juicer_config.strip())
!dj-process --config data/data-juicer/data_juicer_config.yaml
- 创建 Data-Juicer 配置文件,指定项目名称、数据集路径以及过滤规则。
- 运行 Data-Juicer,根据指定的条件筛选图像。
5. 处理筛选后的图像
import pandas as pd
import os, json
from PIL import Image
from tqdm import tqdm
texts, file_names = [], []
os.makedirs("./data/lora_dataset_processed/train", exist_ok=True)
with open("./data/data-juicer/output/result.jsonl", "r") as file:
for data_id, data in enumerate(tqdm(file.readlines())):
data = json.loads(data)
text = data["text"]
texts.append(text)
image = Image.open(data["image"][0])
image_path = f"./data/lora_dataset_processed/train/{data_id}.jpg"
image.save(image_path)
file_names.append(f"{data_id}.jpg")
data_frame = pd.DataFrame()
data_frame["file_name"] = file_names
data_frame["text"] = texts
data_frame.to_csv("./data/lora_dataset_processed/train/metadata.csv", index=False, encoding="utf-8-sig")
data_frame
- 处理筛选后的图像数据,将图像和元数据保存到新目录中。
- 创建 CSV 文件,包含图像文件名和描述信息。
6. 下载模型
from diffsynth import download_models
download_models(["Kolors", "SDXL-vae-fp16-fix"])
- 下载预训练模型,这些模型用于图像生成和处理。
7. 训练 LoRA 模型
import os
cmd = """
python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \
--pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \
--pretrained_text_encoder_path models/kolors/Kolors/text_encoder \
--pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \
--lora_rank 16 \
--lora_alpha 4.0 \
--dataset_path data/lora_dataset_processed \
--output_path ./models \
--max_epochs 1 \
--center_crop \
--use_gradient_checkpointing \
--precision "16-mixed"
""".strip()
os.system(cmd)
- 执行 LoRA 训练脚本,使用指定的预训练模型和配置参数进行训练。
8. 加载和应用 LoRA 模型
from diffsynth import ModelManager, SDXLImagePipeline
from peft import LoraConfig, inject_adapter_in_model
import torch
def load_lora(model, lora_rank, lora_alpha, lora_path):
lora_config = LoraConfig(
r=lora_rank,
lora_alpha=lora_alpha,
init_lora_weights="gaussian",
target_modules=["to_q", "to_k", "to_v", "to_out"],
)
model = inject_adapter_in_model(lora_config, model)
state_dict = torch.load(lora_path, map_location="cpu")
model.load_state_dict(state_dict, strict=False)
return model
model_manager = ModelManager(
torch_dtype=torch.float16,
device="cuda",
file_path_list=[
"models/kolors/Kolors/text_encoder",
"models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors",
"models/kolors/Kolors/vae/diffusion_pytorch_model.safetensors"
]
)
pipe = SDXLImagePipeline.from_model_manager(model_manager)
pipe.unet = load_lora(
pipe.unet,
lora_rank=16,
lora_alpha=2.0,
lora_path="models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt"
)
- 加载并配置 LoRA 模型,将 LoRA 适配器注入到预训练模型中。
- 初始化图像生成管道,并应用 LoRA 权重。
9. 生成和保存图像
torch.manual_seed(0)
image = pipe(
prompt="二次元,一个紫色短发小女孩,在家中沙发上坐着,双手托着腮,很无聊,全身,粉色连衣裙",
negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
cfg_scale=4,
num_inference_steps=50,
height=1024, width=1024,
)
image.save("1.jpg")
- 生成图像,根据提供的正向提示词和负向提示词进行生成,并保存为“1.jpg”。
10. 图像拼接
import numpy as np
from PIL import Image
images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]
image = np.concatenate([
np.concatenate(images[0:2], axis=1),
np.concatenate(images[2:4], axis=1),
np.concatenate(images[4:6], axis=1),
np.concatenate(images[6:8], axis=1),
], axis=0)
image = Image.fromarray(image).resize((1024, 2048))
image
- 读取和拼接图像,将生成的图像拼接成一个大图,并调整大小以便于展示。
这段代码的整体流程是准备数据、训练模型、生成图像,并最终展示拼接后的图像。
5. 学习工具
- 通义千问:一个多功能AI助手,帮助解决编程和技术支持问题。提供了使用指南和功能模块介绍。
- 使用AI生成提示词以及故事
- 提示词
1. 从底层开始
-
提示词: “在一个贫困的村庄中,年轻的勇士在破旧的小屋前辛勤工作,周围是荒凉的土地,但他的眼中充满对未来的希望。”
-
关键词: 贫困村庄、年轻勇士、破旧小屋、荒凉土地、努力工作、希望
-
负面提示: 富裕、奢华、平静、整洁
2. 初遇困难
-
提示词: “在黑暗的森林中,勇士手握利剑,面对着一只巨大的怪物,周围环境阴森恐怖,但他毫不畏惧。”
-
关键词: 黑暗森林、勇士、巨大怪物、拔剑、阴森、勇敢
-
负面提示: 光明、和平、无威胁、安全
3. 遇见导师
-
提示词: “在一座古老的塔楼内,智慧的老者正向勇士传授魔法与剑术,环境宁静祥和,为即将到来的挑战做准备。”
-
关键词: 古老塔楼、智慧老者、传授技能、魔法、剑术、宁静
-
负面提示: 嘈杂、混乱、危险、狡诈
4. 收集神器
-
提示词: “勇士在神秘的洞穴中发现了一把散发着光芒的古老神器剑,四周布满奇异的符文,他脸上露出兴奋与决心。”
-
关键词: 神秘洞穴、古老神器、剑光闪烁、奇异符文、兴奋、决心
-
负面提示: 普通物品、暗淡、无力量、失望
5. 击败邪恶
-
提示词: “在阴森的城堡前,勇士与邪恶的军队展开激烈的战斗,天空被黑云笼罩,他展现出无与伦比的勇气。”
-
关键词: 城堡、邪恶军队、激烈战斗、黑云、勇气、壮观
-
负面提示: 和平、宁静、无战斗、欢乐
6. 带领人民
-
提示词: “站在城堡的高台上,勇士俯瞰着欢呼的人民,阳光洒在恢弘的城市上,象征着胜利与新的希望。”
-
关键词: 城堡高台、勇士、欢呼人民、阳光、恢弘城市、胜利、希望
-
负面提示: 灰暗、失败、失落、破败
7. 迎接新挑战
-
提示词: “在辽阔的土地上,勇士目视远方,那里隐约可见新的黑暗阴影,他准备迎接未来的不确定性。”
-
关键词: 辽阔土地、勇士、黑暗阴影、新挑战、不确定性、探索
-
负面提示: 毫无挑战、轻松、已知的未来、无阴影
8. 成为救世主
-
提示词: “站在山顶,勇士俯瞰着繁荣的国土,感激的人民向他致敬,整个景象象征着光明的未来与持久的和平。”
-
关键词: 山顶、勇士、繁荣国土、感激人民、美丽、光明未来、和平
-
负面提示: 混乱、衰败、绝望、黑暗
这些提示词结合了详细的场景描述和关键单词,可以帮助AI更准确地生成对应的图像。
生成图片的故事以及效果
这是一个关于勇士从底层爬起、最终成为救世主的传奇故事,通过8张图片展示:
1. 从底层开始
描述: 一位年轻的勇士生活在贫困的村庄,周围环境破旧。背景是一片荒凉的土地,村庄里的人们艰难地生活着,勇士在小屋前努力工作。
故事: 在一个贫困的小村庄里,年轻的勇士杰克每天都在田间劳作,生活艰辛,但他心中却燃烧着不灭的希望。尽管村庄的环境恶劣,杰克从未放弃对未来的梦想。
2. 初遇困难
描述: 勇士在一片黑暗的森林中探险,遇到了一只巨大的怪物。勇士勇敢地拔剑准备战斗,背景是一片阴森恐怖的森林。
故事: 杰克决定离开村庄,探索未知的世界。在黑暗的森林中,他第一次遇到了巨大的怪物,虽然恐惧,但他勇敢地迎接挑战,这次经历成为他成长的关键时刻。
3. 遇见导师
描述: 勇士遇到一位智慧的老者,老者在一座古老的塔楼中传授他技能和智慧。背景是一座古老神秘的塔楼,四周环境宁静祥和。
故事: 在冒险的旅途中,杰克遇到了一位智慧的老者。老者看出了杰克的潜力,将他的知识和技能传授给了杰克,教会他如何运用魔法和剑术,为接下来的挑战做好准备。
4. 收集神器
描述: 勇士在神秘的洞穴中发现了一把古老的神器剑,剑光闪烁,洞穴四周布满奇异的符文。勇士兴奋地拿起剑,脸上充满决心。
故事: 杰克在一次探险中发现了一把古老的神器剑,这把剑蕴藏着强大的力量。通过艰苦的试炼和智慧的解谜,他最终成功获得了这把神器,为他即将到来的大战做好准备。
5. 击败邪恶
描述: 勇士与一支邪恶的军队在城堡前展开激烈战斗,背景是一座阴森恐怖的城堡,天空被黑云笼罩,战斗激烈而壮观。
故事: 杰克带领他的盟友们,向邪恶的军队发起了攻击。在城堡前的战斗中,杰克展现了他无与伦比的勇气和力量,最终击败了邪恶的军队,拯救了被压迫的人民。
6. 带领人民
描述: 勇士站在城堡的高台上,俯瞰下面欢呼的人民,背景是一座恢弘的城市,阳光洒在城堡上,象征着胜利和希望。
故事: 战斗结束后,杰克被人民推举为领袖。他带领人民重建家园,实施改革,使国家恢复繁荣。在他的领导下,曾经破碎的土地重新焕发了生机。
7. 迎接新挑战
描述: 勇士站在一片崭新的天地中,面前出现了新的挑战,背景是辽阔的土地和远处隐约出现的黑暗阴影,象征未来的不确定性。
故事: 即便在胜利之后,杰克并没有停止前进。他意识到,和平的时代需要继续奋斗。他迎接新的挑战,决心保护他所建立的和平,并不断探索未知的世界。
8. 成为救世主
描述: 勇士站在山顶,俯瞰着繁荣的国家和感激的人民,背景是一片美丽的国土,象征着光明的未来和和平的时代。
故事: 杰克最终成为了传说中的救世主。他不仅为自己的国家带来了和平与繁荣,也成为了所有人的榜样。他的传奇故事将永远铭刻在人民心中,激励着一代又一代的勇士。