Datawhale AI夏令营第四期魔塔-AIGC文生图方向 task02笔记

DataWhale开源组织网站主页:Datawhale 

分任务1:认识通义千问

第一步——通义千问的自我介绍

        通义千问是阿里云推出的一个大型预训练模型,它能够回答问题、创作文字,还能表达观点、撰写代码。这个模型基于大量的互联网文本进行训练,从而具备了跨领域的知识和语言理解能力。用户可以通过自然语言与通义千问互动,获得帮助、获取信息或进行创作。无论是寻求技术解答、探索文化知识、寻求生活建议,还是需要创意灵感,通义千问都能提供丰富多彩、准确且有帮助的回答。其目标是成为一个灵活、实用、并且富含创造性的智能助手,服务于广大用户的不同需求。

第二步——抱走你的AI学习助教

        让我们来接收一封来自通义千问的邀请函

第三步——使用操作指南

官方链接:https://tongyi.aliyun.com/qianwen/

主要功能模块:

  1. 对话,支持文字输入,文件上传等模式,我们本次课程主要使用当前模块;

  2. 效率,各种学习办公小工具;

  3. 智能体,通义的智能体应用市场,大家可以根据自己的需求找到很多有意思的小应用。

分任务2:精读baseline—从零入门AI生图

第一步——分析代码的主体结构

  1. 数据准备:
    • 使用MsDataset从ModelScope加载了一个名为'AI-ModelScope/lowres_anime'的数据集,专注于低分辨率动漫图像。
    • 处理数据集,提取图像并创建包含文本描述("二次元")和图像路径的metadata文件,为后续的处理和模型训练做准备。
  2. 数据清洗与筛选:                                                                                                                      利用data-juicer工具对收集到的数据进行质量过滤,比如根据图像尺寸、宽高比等条件筛选出符合条件的样本,确保用于后续步骤的数据质量。
  3. 数据格式化与保存:                                                                                                                   将筛选后的数据整理成CSV格式,便于管理和进一步处理。
  4. 文本-图像相似度评估:                                                                                                             使用OpenAI的CLIP模型评估图像与其关联文本的语义相似度。虽然代码中执行了这一步,但没有进一步利用相似度结果来筛选数据或指导生成过程,可能作为验证数据与标签一致性的一个步骤。
  5. 自定义数据集与数据加载器:                                                                                                     定义了一个基于Pandas DataFrame的自定义PyTorch数据集类,为CLIP模型或其他潜在模型的输入准备数据。
  6. 图像生成:                                                                                                                                 使用Stable Diffusion Pipeline(来自CompVis的stable-diffusion模型)根据特定文本提示生成二次元风格的图像。通过多次调用并设置不同的随机种子,生成了一系列具有不同场景和特征的图像。
  7. 结果合并与展示:                                                                                                                   最后,将生成的部分图像横向和纵向拼接成一张大图,以便于直观查看生成结果。

通义千问返回答案:

第二步——逐行解释代码

分任务3:实战演练——基于话剧的连环画制作

第一步——数据准备 

第二步——基于task01速通baseline

     执行Task1的30分钟速通Baseline:

从零入门AI生图原理&实践icon-default.png?t=N7T8https://datawhaler.feishu.cn/wiki/CMYkwKow0ihxOikg1G9cd9Zhnng

第三步——提示词修改

  1. 双击进入baseline文件

  2. 找到生成图像的板块

  3. 依次替换8张图片的正向提示词和反向提示词 

第四步——效果展示 

图片一:

图片二:

图片三:

图片四:

图片五:

图片六:

图片七:

图片八:

  • 19
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值