Datawhale X 魔搭 AI夏令营 - 学习笔记 -task2

一,通义千问
通义千问的介绍:通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。(编程与技术支持能力是它的强项之一)

相信很多人已经用到这个AI助手了,这里就不多进行介绍。接下来我们运用他的功能精读task1的baseline

1. **环境准备**:
   - 安装所需的Python包,例如`simple-aesthetics-predictor`, `data-juicer`, `peft`, `lightning`, `pandas`, `torchvision`等。
   - 卸载并重新安装某些特定版本的包,例如卸载`pytorch-lightning`再安装其他依赖。

2. **数据集加载与预处理**:
   - 加载名为`AI-ModelScope/lowres_anime`的数据集,并提取其中的图像数据。
   - 将图像数据保存至磁盘,并创建一个包含图像路径和对应的文本标签(这里是统一标记为"二次元")的元数据文件`metadata.jsonl`。

3. **数据清洗与过滤**:
   - 创建一个配置文件`data_juicer_config.yaml`,定义数据清洗的规则,包括图像尺寸过滤和宽高比过滤。
   - 使用`data-juicer`工具对数据集进行处理,输出过滤后的结果到`result.jsonl`文件。

4. **数据集整理与特征提取**:
   - 读取经过清洗的数据集,将其整理成DataFrame格式,并保存为CSV文件`result.csv`。
   - 使用CLIP模型提取图像和文本的嵌入向量,并计算它们之间的相似度分数。

5. **构建PyTorch数据集**:
   - 创建一个自定义的PyTorch数据集类`CustomDataset`,用于加载图像和文本数据。
   - 使用该数据集类创建一个数据加载器`DataLoader`,以便于后续训练使用。

6. **图像生成**:
   - 使用`StableDiffusionPipeline`模型根据不同的提示(prompt)生成一系列二次元风格的图像,并保存至磁盘。
   - 将生成的图像拼接在一起形成一个大的图像,并调整其尺寸。

下面是每个部分更详细的解释

### 环境准备
这部分负责确保所有必要的Python包都已正确安装。

### 数据集加载与预处理
这部分从`MsDataset`加载数据集,并对图像进行基本处理,如转换颜色模式和保存至磁盘。同时,为每个图像创建一个包含路径和标签的元数据条目。

### 数据清洗与过滤
这部分定义了一个配置文件来指定数据清洗的标准,并调用`data-juicer`工具来执行这些操作。

### 数据集整理与特征提取
这部分将处理后的数据集整理成易于使用的格式,并利用CLIP模型计算图像和文本的相似度。

### 构建PyTorch数据集
这部分创建了一个PyTorch数据集类,用于方便地加载和预处理数据,以及创建数据加载器。

### 图像生成
这部分使用`StableDiffusionPipeline`根据给定的提示生成图像,并将多个图像拼接起来形成最终的输出。

整个脚本的工作流程是从数据集的加载和预处理开始,然后进行数据清洗,接着是特征提取和数据集构建,最后使用生成模型根据提示生成新的图像。

二,实战演练一一基于话剧的连环画制作

基于这些词,在有任务一的基础上,我们只需更改提示词即可得到结果图

三、Scepter与WebUI 可视化生图
 这里不做过多介绍,后面等熟悉了在过来补充

浅尝功能:魔搭体验网址:https://www.modelscope.cn/studios/iic/scepter_studio

以上就是我task2的学习笔记,再接再厉。

  • 10
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值