Datawhale X 魔搭 AI夏令营(2024第四期)AIGC方向 学习笔记

task1

这一期是使用可图+lora微调进行文生图任务的比赛

文生图也算是跨模态了,输入Prompt文本,输出图片。Prompt很重要,分为prompts和negative prompts。可以指导结果图片的生成。

lora可以参考我上期夏令营的文章:Datawhale AI 夏令营(2024第三期)AI+逻辑推理方向 模型微调学习笔记。在文生图的这个使用场景下,使用LoRA调整模型参数以实现对特定主题、风格或任务的精细化控制。

Confy UI是一个可视化工具,允许模型训练者以一个流程图的形式,进行数据预处理、模型微调、图像生成。很方便,不过目前我还没有搭建起来。
在这里插入图片描述
参考图控制是一种根据某种参考图指导模型生成图片样式的方式。如下图。是基于扩散模型,对初始随机噪点扩散到完整图片的方式。
在这里插入图片描述

baseline

稍微看了下代码,流程还是下载模型和数据集、数据预处理、lora微调、图片生成。代码里通过torch.manual_seed(seed)方便我们复现此次图片生成。

下面是我调出来的图片。剧情是用moonshot生成的,大概就是一个邮递员的梦游历险记,意外获得地图->历尽艰辛->获得巫师认可,被赐予贵重的项链->原来只是个梦,但桌上确实有那个项链。

1234
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

task2

task2似乎就是对于文生图的历史介绍和教怎么用通义千问阅读baseline的代码

我这里主要看了下对于data_juicer的配置

data_juicer_config = """
# global parameters
project_name: 'data-process' # 名称
dataset_path: './data/data-juicer/input/metadata.jsonl'  # 你前面生成的数据的索引文件
np: 4  # 线程数

text_keys: 'text' # 文件./data/data-juicer/input/metadata.jsonl的描述的字段名
image_key: 'image' # 文件./data/data-juicer/input/metadata.jsonl的图片字段名
image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl' # 筛选通过的图片结果保存的的索引文件

# process schedule
# a list of several process operators with their arguments
# 过滤的规则
process:
    - image_shape_filter: # 图片尺寸过滤
        min_width: 1024 # 最小宽度1024
        min_height: 1024 # 最小高度1024
        any_or_all: any # 符合前面条件的图片才会被保留
    - image_aspect_ratio_filter: # 图片长宽比过滤
        min_ratio: 0.5 # 最小长宽比0.5
        max_ratio: 2.0 # 最大长宽比2.0
        any_or_all: any # 符合前面条件的图片才会被保留
"""

然后看了下https://github.com/modelscope/data-juicer/blob/main/README_ZH.md的内容,稍微了解了下这个项目是干嘛的,似乎是个很强大的数据处理工具,含有很多算子。在以后的大模型训练中兴许能用到

至于剧本的编写,我在task1中就有用到moonshot进行推理,这次换了通义千问的,感觉都差不多。对于他给出的文生图prompt还要进一步修改和调整才能用于kolors模型中。

task3

学习confyui的使用。跟着教程也是成功在modelscope里启动了confyui服务并且在网页端访问了
在这里插入图片描述
右方的操作菜单里,支持导出自己的工作流为json,以及导入别人的工作流。会直接替换掉整个页面上的流程图
在这里插入图片描述
试下了含lora的工作流,流程图形式,而且支持参数修改,比代码里修改直观方便多了。

随手试了一个Prompt,效果还不错
在这里插入图片描述
稍微看了下工作流
大概就是chatglm将Prompt编码,传入经过lora微调的kolors模型,然后(大概?)将kolors生成的潜在空间表示用VAE解码生成图片

最后看了下可行的数据集

  • https://modelscope.cn/datasets
  • https://image-net.org/update-mar-11-2021.php
  • https://storage.googleapis.com/openimages/web/index.html
  • https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

除了开源的数据集外,也有如下方式造数据或者买数据

在这里插入图片描述
我也思考了一下个人做这些AIGC是否有意义,我感觉意义不大,还需要一定的硬件,最终也只能是自娱自乐。但如果有些风格特别创新的倒是可以开个视频账号配个BGM啥的广撒视频,又或者自己开网店卖图或者做宣传图之类的。技术固然重要,还是要有点运用它的商业头脑啊555555

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值