Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向

通过前面一个阶段的学习,我学习到了如何使用魔搭和PAI-DSW来创建实例,运行代码,生成自己所需要的图片。

而这一个阶段,我将对前面的baseline进行一个具体的分析了解,并且运用一个新的AI工具来帮助我定位图片的提示词,从而生成我想要的图片,这是一个非常棒的体验,接下来我将分享在这一阶段我学习到的知识!

首先,我了解到了AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式。并且很早就有专家指出,AIGC将是未来人工智能的重点方向,也将改造相关行业和领域生产内容的方式。

对于我们来说,学习ALGC可以避免被常见的AI生图场景欺骗,偶尔也可以通过相关工具绘图。

对于创作来说,学习ALGC可以提高自己的制图效率,快速制作自己所需要的内容。

对于技术来说,了解AIGC有关的技术和知识,可以更好地针对自己的业务进行开发和使用,甚至攻克难题开发更实用的工具。

其次,我学习到了AI生图的历史。最早的AI生图可追溯到20世纪70年代,当时由艺术家哈罗德·科恩(Harold Cohen)发明AARON,可通过机械臂输出作画。

现代的AI生图模型大多基于深度神经网络基础上训练,最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。

2015年,谷歌推出了“深梦”(Deep Dream)图像生成工具,类似一个高级滤镜,可以基于给定的图片生成梦幻版图片。

2021 年 1 月 OpenAI 推出DALL-E模型(一个深度学习算法模型,是GPT-3 语言处理模型的一个衍生版本),能直接从文本提示“按需创造”风格多样的图形设计。

一般来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片

通过学习大量画家的作品,AI生图模型 往往可以照猫画虎绘制出类似的画作,在2022年8月AI生图真正走进了大众的视野,让各个领域无法忽视

然后,AI的生图能力也有很多的缺陷和不足。这是因为每个模型用于训练的数据是有限的且不一定相同的,它们能匹配的描述和特征也是有限的,所以在风格、具体事物上,不同的模型会有很大的生成差异,且可能存在诸多与现实不符的情况。

并且在大部分生图场景下,我们可能经常会觉得图片存在“AI味”,这很长一段时间也是科研界和相关从业人员非常头大的问题。

所以,我们在进行输入生图提示词时,需要进行大量的调查和尝试,尽量让AI的风格更趋向于事实,到达我们想要的水平和图片。

但同时,AI生图技术的成熟也会带来很多风险,例如诈骗或误导他人。AI生图技术可能可以模拟亲人的图片或视频进行欺诈,也有可能捏造事实,从而影响大众的判断,因此,我们在辨别可能需要非常仔细地——

  • 观察图片的细节。仔细检查人物的面部特征,尤其是眼睛和嘴巴

  • 检查光线和阴影。分析图片中的光源是否一致,阴影的方向是否与光源相符,是否存在不自然的光线或阴影

  • 分析像素。放大图片,寻找是否有模糊或像素化的部分。

  • 注意背景。检查背景中是否有不协调的元素,比如物体边缘是否平滑,背景中是否有不自然的重复模式。

接下来,我将推荐一个非常好用的AI智能助手--通义千问。它是具有信息查询、语言理解、文本创作等多能力的AI助手。它可以通过输入问题来进行回答,是我们专属的、可随时触达的、24小时随时待命的贴心助教,可以帮助我们解决很多学习中遇到的问题。

就像在上一阶段运行的所有baseline,我们都可以通过搜索框对于这些baseline的代码进行询问,通义千问就可以根据我们的问题,给予我们解答。

例如,我们询问数据整理与训练这一部分的代码,每一条都代表着什么意思,通义千问就可以很快的给予我们回复,如果我们还是不理解,也可以逐条进行追问。

不用担心的是,通义千问很有耐心,可以逐一帮我们解惑!

最后,就是实操环节啦!

我会根据教学资料里所提供的话术,向通义千问询问基于话剧的连环画制作所需要的提示词该怎么写。

例如,我会向通义千问输入:

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧 话剧由8张场景图片生成,你需要输出每张图片的生图提示词 具体的场景图片

1、女主正在上课,目视前方,身穿红色吊带长裙

2、开始睡着了

3、进入梦乡,梦到自己身穿红色长裙站在一棵白色大树下,前面有一个穿着黑色华贵服饰的看不清的人

4、被拉着在田野里往前狂奔,男生穿着黑色华贵服饰拉着女生的手,女生穿着红色古风长裙,笑着看着他,手指指向远方漂亮的花圃

5、两人坐在花圃中相谈甚欢

6、一起坐在秋千上,旁边有好多小动物

7、下课了,梦醒了

8、在回家的路上若有所思

生图提示词要求

1、风格为古风

2、根据场景确定是使用全身还是上半身

3、人物描述

4、场景描述

5、做啥事情

6. 女生的外貌描写,要很漂亮和优秀

例子: 古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙

从而生成我想要制作的八张图片。

怎么样?这几张图是不是很漂亮?我对于这一次的生图结果非常满意。

然后大家就可以根据自己的兴趣进行展示啦。既可以放在自己的桌面上,手机里,也可以再次参加可图Kolors-LoRA风格故事挑战赛。

在这一阶段,我们不仅可以学习到这些内容,还有些其他的AI生图工具可以使用,例如Scepter和WebUI这两个工具,但我也还没有很熟练的使用这两个工具。学习内容我就放在最后面的链接里了,欢迎各位小伙伴进行学习,那今天的分享就到这里啦,拜拜!

官方教程链接:Datawhale

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值