Datawhale X魔搭AI夏令营 魔搭-AIGC方向 Task2笔记

Datawhale X魔搭AI夏令营 魔搭-AIGC方向 Task2笔记

       经过TASK1的学习,我们都或多或少地了解了AI作图的相关知识,那么接下来我们需要学习的便是深入Prompt工程与微调,精准理解AI作图个中原理,深刻探究文生图背后代码真相。

有关于AI作图的能力与极限

       AI作图正式问世以来,便一直受到人们广泛关注,风险与机遇也随之而来。2023年,一张AI图斩获头筹,被评为索尼世界摄影奖 (SWPA)的“创意类别优胜奖”;教皇身穿羽绒服与特朗普被捕的假照片也在疯狂传播。甚至有不法分子利用AI换脸技术招摇撞骗,进行犯罪活动。那么,我们如何辨别AI产品呢?

        目前,大部分的AI图我们都能够一眼盯真,看出是AI生成。但AI作图问世已有数载,这期间AI图的“AI感”也在被训练千百遍的模型与愈加精炼的提示词逐渐抹去,如今大部分的模型已具备去除 “AI味” 的能力,AI图也到了真假难辨的地步。这时,分辨AI图的做法便是仔细观察图像中人物的面部和四肢,看看人物是不是莫名其妙的出现了第三只手,或者嘴巴非常怪异。亦或者我们也可以观察图中光源的方向,看看阴影和光源是否存在冲突。

        了解AI生图前沿,有助于我们时刻明确AI作图最新动向,不仅可以防止被AI图欺骗,还可以利用AI制作自己需要想要的内容,丰富扩展自己的知识储备。

相关于通义千问以及大语言模型

        大语言模型是能够通过处理大量文本数据来理解和生成人类语言的 AI 系统,简单来说,就是如chatGPT、通义千问、文心一言等由AI回答问题的工具。这些工具极大的拓展了人们的知识面,对我们获取AI相关知识、完善学习具有重要作用。

        在TASK2中,我们着重使用的是通义千问的代码分析与提示词生成。

代码分析

        密密麻麻的一大串代码简直让人头疼。我们初次见到baseline代码时,可能大部分人都是这种感觉。代码里充斥着超出自己知识水平的英文以及意义不明的字母组合,让人连看下去的耐心都没有。这时,我们便需要使用通义千问来一行一行分析代码的作用,并将其分为几个部分。

1.环境准备

        通过 !pip 命令来安装或卸载 Python 包,安装simple-aesthetics-predictor, data-juicer, pandas等,卸载pytorch-lightning。

2.加载部分

        使用ModelScope的MsDataset加载一个名为lowres_anime的数据集,并将其加载到cache_dir指定的目录下。

3.数据预处理

        创建目录用于存放图像文件和数据Juicer的输入,遍历数据集,将图像转换为RGB格式,保存到本地,并创建metadata文件,其中包含图像路径和相关文本描述,编写DataJuicer配置文件,设定过滤器参数,如图像尺寸和长宽比。

4.数据处理

        使用DataJuicer工具对数据集进行预处理。

5.处理输出结果

        读取DataJuicer处理后的结果,提取文本和图像文件名,存储到Pandas DataFrame中,并保存为CSV文件。

6.文本-图像相似度计算

        加载CLIP模型和处理器,对图像和文本进行编码,计算它们之间的相似度分数,将数据组织成自定义的PyTorch数据集。

7.生成图像

8.拼接图像

        很明显,我提问得到的代码工作流程划分与教程中有所不同,但大体上仍方向一致,此文中的第5、6步骤即为教程中第5步骤的拆分。

        总体来看,大致的工作流程为先安装卸载一些包,再对数据集进行加载并处理,通过整理训练后生成图像而后合并。

提示词生成

        经过精读baseline,我们已经对我们所用的代码有了些许了解。接下来,我们就可以开始这次学习的重头戏——让通义千问帮我们想出提示词。我们只需要把我们的要求较为具体地发给通义千问,它便会为我们生成提示词,我们再在此基础上加以打磨,最终整理出场景表格就可以。

scepter webui的初探索

        scepter webui也是一个AI成图工具,比我们所使用的AI作图工具更为精细,它专注于生成式训练、微调和推理,集合了生成式AI的各种技术和应用,是一个强大的工具集。

        笔记至此结束。有人说上一个笔记没有成果图,看着有点单调,那TASK2的结尾我便将我的成果图以及遇到的问题放出。未经修改,人物存在问题,粗糙至极,还请海涵。

上来就是一个大的,画风过于卡通了。

AI的经典疑难杂症,不会画手,其他看着还行。前两张的目的是描述出男主在农场的幸福种地生活

枪口也没画好,这张的本意是表现男主从幸福田园生活突然踏入枪林弹雨的战场。

这张是我感觉效果好一点的,炸弹爆炸,流弹在空中乱舞。

这张我是想描绘一个男主随部队冲锋的画面,结果男主不仅脸上血没了,还向着冲锋的相反方向举枪,好家伙,这是在指着谁

这张是男主被子弹击中,重伤倒地。

这张简单明了,男主牺牲在了战场上,士兵们跨过他的尸体继续前进。但男主身上啥血没有,跟睡着了一样。

这张意思是男主死时感觉自己回到了家乡。但男主不仅睁眼,还抬起了头?

        这八张图是一个维护和平、反对战争的小故事,意在关注战争中家园沦丧、危如累卵的人们。但很明显,主旨表达的非常不明显。此次成图也只能用失败来形容,后续我会用工具继续研究改进。

        文中相关知识与观点,如有错误,敬请指正。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值