一,通义千问
通义千问的介绍:通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。(编程与技术支持能力是它的强项之一)
相信很多人已经用到这个AI助手了,这里就不多进行介绍。接下来我们运用他的功能精读task1的baseline
1. **环境准备**:
- 安装所需的Python包,例如`simple-aesthetics-predictor`, `data-juicer`, `peft`, `lightning`, `pandas`, `torchvision`等。
- 卸载并重新安装某些特定版本的包,例如卸载`pytorch-lightning`再安装其他依赖。
2. **数据集加载与预处理**:
- 加载名为`AI-ModelScope/lowres_anime`的数据集,并提取其中的图像数据。
- 将图像数据保存至磁盘,并创建一个包含图像路径和对应的文本标签(这里是统一标记为"二次元")的元数据文件`metadata.jsonl`。
3. **数据清洗与过滤**:
- 创建一个配置文件`data_juicer_config.yaml`,定义数据清洗的规则,包括图像尺寸过滤和宽高比过滤。
- 使用`data-juicer`工具对数据集进行处理,输出过滤后的结果到`result.jsonl`文件。
4. **数据集整理与特征提取**:
- 读取经过清洗的数据集,将其整理成DataFrame格式,并保存为CSV文件`result.csv`。
- 使用CLIP模型提取图像和文本的嵌入向量,并计算它们之间的相似度分数。
5. **构建PyTorch数据集**:
- 创建一个自定义的PyTorch数据集类`CustomDataset`,用于加载图像和文本数据。
- 使用该数据集类创建一个数据加载器`DataLoader`,以便于后续训练使用。
6. **图像生成**:
- 使用`StableDiffusionPipeline`模型根据不同的提示(prompt)生成一系列二次元风格的图像,并保存至磁盘。
- 将生成的图像拼接在一起形成一个大的图像,并调整其尺寸。
下面是每个部分更详细的解释:
### 环境准备
这部分负责确保所有必要的Python包都已正确安装。
### 数据集加载与预处理
这部分从`MsDataset`加载数据集,并对图像进行基本处理,如转换颜色模式和保存至磁盘。同时,为每个图像创建一个包含路径和标签的元数据条目。
### 数据清洗与过滤
这部分定义了一个配置文件来指定数据清洗的标准,并调用`data-juicer`工具来执行这些操作。
### 数据集整理与特征提取
这部分将处理后的数据集整理成易于使用的格式,并利用CLIP模型计算图像和文本的相似度。
### 构建PyTorch数据集
这部分创建了一个PyTorch数据集类,用于方便地加载和预处理数据,以及创建数据加载器。
### 图像生成
这部分使用`StableDiffusionPipeline`根据给定的提示生成图像,并将多个图像拼接起来形成最终的输出。
整个脚本的工作流程是从数据集的加载和预处理开始,然后进行数据清洗,接着是特征提取和数据集构建,最后使用生成模型根据提示生成新的图像。
二,实战演练一一基于话剧的连环画制作
基于这些词,在有任务一的基础上,我们只需更改提示词即可得到结果图
图片编号 | 场景描述 | 正向提示词 | 反向提示词 |
图片1 | 女主正在上课 | 古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片2 | 开始睡着了 | 古风,水墨画,一个黑色长发少女,坐在教室里,趴在桌子上睡着了,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片3 | 进入梦乡,梦到自己站在路旁 | 古风,水墨画,一个黑色长发少女,站在路边,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片4 | 王子骑马而来 | 古风,水墨画,一个英俊少年,骑着白马,上半身,白色衬衫 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片5 | 两人相谈甚欢 | 古风,水墨画,一个英俊少年,白色衬衫,一个黑色长发少女,红色长裙,两个人一起聊天,开心,上半身 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片6 | 一起坐在马背上 | 古风,水墨画,一个英俊少年,白色衬衫,一个黑色长发少女,红色长裙,两个人一起骑着马,全身 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片7 | 下课了,梦醒了 | 古风,水墨画,一个黑色长发少女,坐在教室里,下课铃声响了,同学们开始走动,从睡梦中醒来,深思,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |
图片8 | 又回到了学习生活中 | 古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,认真上课,上半身,红色长裙 | 丑陋,变形,嘈杂,模糊,低对比度 |