Datawhale 2024年AI夏令营的第四期学习活动聚焦于“AIGC”(人工智能生成内容)的前沿领域,第二阶段特别安排了“精读代码,实战进阶”这一课程。课程紧密依托于魔搭社区举办的“可图Kolors-LoRA风格故事挑战赛”(https://tianchi.aliyun.com/competition/entrance/532254)
本篇笔记为第二阶段的笔记
本阶段的学习分为了解AI生图前沿、认识通义千问、入门AI生图以及以基于话剧的连环画制作进行实战演练。
一、了解AI生图前沿
AI图像生成模型获取其图像生成能力的核心机制在于深度学习和特征映射过程。这一过程涉及对大量图像描述与图像本身特征的联合学习,旨在建立两者之间的精确对应关系,并将这些知识内化为模型的记忆体系。
当外界提出具体需求时,即通过输入描述性文本,模型能够激活其内部存储的特征表征,根据文本内容复现并组合相应的图像特征,最终输出符合需求的图像。
图1 文本生成图像模型 VQGAN-CLIP
鉴于各模型训练所依赖的数据集具有有限性和差异性,这限制了模型能够准确匹配和表达的图像描述与特征的范围。因此,在图像生成的风格多样性、具体对象的表现力以及与现实世界的吻合度等方面,不同模型间会展现出显著的差异,且可能产生与实际情况不符的生成内容。
针对这些挑战,学术界与工业界正不断探索与创新,致力于开发更加高效、精确且泛化能力强的图像生成模型,以期在未来能够更好地模拟和理解图像背后的复杂世界。
二、认识通义千问及入门AI生图
通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。
图2 通义千问的自我介绍
当不熟悉代码的主题架构时,可以借助通义千问进行分析。
图3 通义千问对图生文部分代码的分析
三、以基于话剧的连环画制作进行实战演练
在AI文生图的过程中,输入的Prompt对生成的图片内容起到决定性作用。而通过使用通义千问对生图提示词进行打磨,可以得到更便于生成图片的提示词。
图4 通义千问基于给出的场景生成提示词
结合通义千问给出的结果和自身修饰后,将最终的生图提示词代入,对prompt进行调整。
torch.manual_seed(0)
image = pipe(
prompt="二次元,全身,金发蓝眼的少年,穿着海蓝色夹克,手持望远镜,广阔的大海,天空中云彩斑斓,远处有几只海鸥,少年凝视地平线,表情充满渴望",
negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",
cfg_scale=4,
num_inference_steps=50, height=1024, width=1024,
)
image.save("1.jpg")
完成编辑后,点击执行按钮并等待数十分钟,可以完成图片的生成。
完成后可测试美学打分。
以上为本次Task2学习内容的笔记。