Datawhale AI夏令营第四期魔塔-AIGC文生图方向 task02笔记

kvlw

已于 2024-08-14 21:53:08 修改

阅读量494

点赞数 19

文章标签：人工智能 AIGC 笔记 python 图像处理

于 2024-08-14 21:50:33 首次发布

本文链接：https://blog.csdn.net/m0_74204640/article/details/141199937

版权

DataWhale开源组织网站主页：Datawhale

分任务1：认识通义千问

第一步——通义千问的自我介绍

通义千问是阿里云推出的一个大型预训练模型，它能够回答问题、创作文字，还能表达观点、撰写代码。这个模型基于大量的互联网文本进行训练，从而具备了跨领域的知识和语言理解能力。用户可以通过自然语言与通义千问互动，获得帮助、获取信息或进行创作。无论是寻求技术解答、探索文化知识、寻求生活建议，还是需要创意灵感，通义千问都能提供丰富多彩、准确且有帮助的回答。其目标是成为一个灵活、实用、并且富含创造性的智能助手，服务于广大用户的不同需求。

第二步——抱走你的AI学习助教

让我们来接收一封来自通义千问的邀请函

第三步——使用操作指南

官方链接：https://tongyi.aliyun.com/qianwen/

主要功能模块：

对话，支持文字输入，文件上传等模式，我们本次课程主要使用当前模块；
效率，各种学习办公小工具；
智能体，通义的智能体应用市场，大家可以根据自己的需求找到很多有意思的小应用。

分任务2：精读baseline—从零入门AI生图

第一步——分析代码的主体结构

数据准备:
使用MsDataset从ModelScope加载了一个名为'AI-ModelScope/lowres_anime'的数据集，专注于低分辨率动漫图像。
处理数据集，提取图像并创建包含文本描述（"二次元"）和图像路径的metadata文件，为后续的处理和模型训练做准备。
数据清洗与筛选: 利用data-juicer工具对收集到的数据进行质量过滤，比如根据图像尺寸、宽高比等条件筛选出符合条件的样本，确保用于后续步骤的数据质量。
数据格式化与保存: 将筛选后的数据整理成CSV格式，便于管理和进一步处理。
文本-图像相似度评估: 使用OpenAI的CLIP模型评估图像与其关联文本的语义相似度。虽然代码中执行了这一步，但没有进一步利用相似度结果来筛选数据或指导生成过程，可能作为验证数据与标签一致性的一个步骤。
自定义数据集与数据加载器: 定义了一个基于Pandas DataFrame的自定义PyTorch数据集类，为CLIP模型或其他潜在模型的输入准备数据。
图像生成: 使用Stable Diffusion Pipeline（来自CompVis的stable-diffusion模型）根据特定文本提示生成二次元风格的图像。通过多次调用并设置不同的随机种子，生成了一系列具有不同场景和特征的图像。
结果合并与展示： 最后，将生成的部分图像横向和纵向拼接成一张大图，以便于直观查看生成结果。

通义千问返回答案：

第二步——逐行解释代码

分任务3：实战演练——基于话剧的连环画制作

第一步——数据准备

第二步——基于task01速通baseline

执行Task1的30分钟速通Baseline：

从零入门AI生图原理&实践https://datawhaler.feishu.cn/wiki/CMYkwKow0ihxOikg1G9cd9Zhnng

第三步——提示词修改

双击进入baseline文件
找到生成图像的板块
依次替换8张图片的正向提示词和反向提示词

第四步——效果展示

图片一：

图片二：

图片三：

图片四：

图片五：

图片六：

图片七：

图片八：

kvlw

关注

19
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营第四期魔塔-AIGC文生图方向 task02笔记

通义千问是阿里云推出的一个大型预训练模型，它能够回答问题、创作文字，还能表达观点、撰写代码。这个模型基于大量的互联网文本进行训练，从而具备了跨领域的知识和语言理解能力。用户可以通过自然语言与通义千问互动，获得帮助、获取信息或进行创作。无论是寻求技术解答、探索文化知识、寻求生活建议，还是需要创意灵感，通义千问都能提供丰富多彩、准确且有帮助的回答。其目标是成为一个灵活、实用、并且富含创造性的智能助手，服务于广大用户的不同需求。
复制链接

扫一扫