Datawhale X 魔搭 AI夏令营第四期 AIGC方向 Task02笔记

一.认识通义千问

通义千问是一款具有信息查询、语言理解、文本创作等多能力的AI助手。其中,编程与技术支持能力是它的强项之一。

我们可以利用通义千问帮助辅助分析代码结构和功能

二.精读baseline

文生图代码的框架结构:

可以看到,这段代码主要分为以下几个部分:

  1. 安装和卸载依赖包:使用 !pip 命令来安装或卸载 Python 包

  2. 加载数据集:使用 ModelScope 的 MsDataset 类加载名为 AI-ModelScope/lowres_anime 的数据集,并指定子集名称为 default 和分割为 train,缓存目录设置为 /mnt/workspace/kolors/data

  3. 数据预处理:将数据集中的图像转换模式,并保存到指定目录,同时创建包含图像路径和文本描述的元数据文件,并编写配置文件

  4. 使用 Data-Juicer 进行数据处理:使用 dj-process 命令根据配置文件对数据进行过滤和处理,生成 result.jsonl 文件。

  5. 数据整理与训练:读取数据,下载模型,使用lora进行微调训练,最后加载微调后的模型

  6. 图像生成:根据所给的prompt提示词生成图像

  7. 合并图像:将生成的多个图像合并成一个大图像,并调整大小。

三.基于话剧的连环画制作

1.原提示词:

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧 话剧由8张场景图片生成,你需要输出每张图片的生图提示词

具体的场景图片 :1、女主是一个小萝莉,十分开心的走在回家的路上 2、女主放学回到家,发现家里一个人也没有 3、女主拨打电话,但无人接听 4、女主十分伤心,开始哭泣 5、女主走向自己的房间 6、门铃响了,女主走向大门口 7、打开房门,门口放着一个大蛋糕 8、女主由悲转喜

生图提示词要求 1、风格为现代 2、根据场景确定是使用全身还是上半身 3、人物描述 4、场景描述 5、做啥事情

例子: 动漫风,二次元,一个粉色头发萝莉,在漫展上,脸红,摆手​​​​​​​

2.AI生成提示词:

场景1:现代风格,全身构图,一个开心的小萝莉背着书包走在回家的路上,手里拿着一朵花

场景2:现代风格,上半身构图,小萝莉放学回家后发现家里没有人,脸上带着疑惑的表情

场景3:现代风格,上半身构图,小萝莉坐在客厅的沙发上,手持电话,表情焦虑地尝试联系家人

场景4:现代风格,上半身构图,小萝莉坐在沙发上,低头哭泣,手里捏着未接通的电话

场景5:现代风格,全身构图,小萝莉从客厅缓缓走向自己的房间,脚步沉重

场景6:现代风格,全身构图,小萝莉听到门铃声后从走廊走向大门口,步伐加快

场景7:现代风格,全身构图,小萝莉打开大门,惊喜地发现门外放着一个装饰精美的大蛋糕

场景8:现代风格,上半身构图,小萝莉站在门口,脸上从悲伤逐渐转变为惊喜和开心的笑容

3.个人调整后提示词:

场景1:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,背着书包,走在回家的路上,开心,手里拿着一朵花

场景2:二次元,上半身构图,一个双马尾小萝莉,白色连衣裙,在家中,坐在沙发上,脸上带着疑惑的表情

场景3:二次元,上半身构图,一个双马尾小萝莉,白色连衣裙,坐在沙发上,手持电话,表情焦虑

场景4:现代风格,上半身构图,小萝莉坐在沙发上,白色连衣裙,低头哭泣,手里捏着未接通的电话

场景5:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,在家中,准备打开自己房间的房门

场景6:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,在家中,走向家门口

场景7:二次元,动漫风,家门外的地上放着一个草莓小蛋糕

场景8:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,捧着草莓小蛋糕,在家门口,开心的

四.执行Baseline(复用Task01的步骤)

修改prompt提示词,运行程序

生成如下图片:

  • 19
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值