Datawhale X 魔搭 AI夏令营（2024第四期）AIGC方向学习笔记

urlyy_

已于 2024-08-23 17:12:31 修改

阅读量399

点赞数 5

分类专栏： Datawhale学习笔记文章标签：人工智能 AIGC 学习 datawhale

于 2024-08-10 13:21:06 首次发布

本文链接：https://blog.csdn.net/qq_51955445/article/details/141052647

版权

Datawhale学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

task1

这一期是使用可图+lora微调进行文生图任务的比赛

文生图也算是跨模态了，输入Prompt文本，输出图片。Prompt很重要，分为prompts和negative prompts。可以指导结果图片的生成。

lora可以参考我上期夏令营的文章:Datawhale AI 夏令营（2024第三期）AI+逻辑推理方向模型微调学习笔记。在文生图的这个使用场景下，使用LoRA调整模型参数以实现对特定主题、风格或任务的精细化控制。

Confy UI是一个可视化工具，允许模型训练者以一个流程图的形式，进行数据预处理、模型微调、图像生成。很方便，不过目前我还没有搭建起来。
在这里插入图片描述
参考图控制是一种根据某种参考图指导模型生成图片样式的方式。如下图。是基于扩散模型，对初始随机噪点扩散到完整图片的方式。

baseline

稍微看了下代码，流程还是下载模型和数据集、数据预处理、lora微调、图片生成。代码里通过torch.manual_seed(seed)方便我们复现此次图片生成。

下面是我调出来的图片。剧情是用moonshot生成的，大概就是一个邮递员的梦游历险记，意外获得地图->历尽艰辛->获得巫师认可，被赐予贵重的项链->原来只是个梦，但桌上确实有那个项链。

1	2	3	4

task2

task2似乎就是对于文生图的历史介绍和教怎么用通义千问阅读baseline的代码

我这里主要看了下对于data_juicer的配置

data_juicer_config = """
# global parameters
project_name: 'data-process' # 名称
dataset_path: './data/data-juicer/input/metadata.jsonl'  # 你前面生成的数据的索引文件
np: 4  # 线程数

text_keys: 'text' # 文件./data/data-juicer/input/metadata.jsonl的描述的字段名
image_key: 'image' # 文件./data/data-juicer/input/metadata.jsonl的图片字段名
image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl' # 筛选通过的图片结果保存的的索引文件

# process schedule
# a list of several process operators with their arguments
# 过滤的规则
process:
    - image_shape_filter: # 图片尺寸过滤
        min_width: 1024 # 最小宽度1024
        min_height: 1024 # 最小高度1024
        any_or_all: any # 符合前面条件的图片才会被保留
    - image_aspect_ratio_filter: # 图片长宽比过滤
        min_ratio: 0.5 # 最小长宽比0.5
        max_ratio: 2.0 # 最大长宽比2.0
        any_or_all: any # 符合前面条件的图片才会被保留
"""

然后看了下https://github.com/modelscope/data-juicer/blob/main/README_ZH.md的内容，稍微了解了下这个项目是干嘛的，似乎是个很强大的数据处理工具，含有很多算子。在以后的大模型训练中兴许能用到

至于剧本的编写，我在task1中就有用到moonshot进行推理，这次换了通义千问的，感觉都差不多。对于他给出的文生图prompt还要进一步修改和调整才能用于kolors模型中。

task3

学习confyui的使用。跟着教程也是成功在modelscope里启动了confyui服务并且在网页端访问了
在这里插入图片描述
右方的操作菜单里，支持导出自己的工作流为json，以及导入别人的工作流。会直接替换掉整个页面上的流程图

试下了含lora的工作流，流程图形式，而且支持参数修改，比代码里修改直观方便多了。