Datawhale X 魔塔 AI夏令营 AIGC方向Task2

AI文生图实践

原创

已于 2024-08-14 22:56:51 修改 · 1.2k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC

于 2024-08-14 22:55:15 首次发布

小白学习笔记，如有错误请各位大佬指正

一、AI生图背景介绍

1.AICG领域介绍

AIGC（Artificial Intelligence Generated Content）领域涉及使用人工智能技术生成各种类型的内容，包括文本、图像、音频和视频。这个领域的快速发展和广泛应用引起了广泛关注，涵盖了多个技术和应用方向。这里主要是文本生成、图像生成、音频生成、视频生成四个方向。

这里主要介绍图像生成。

图像生成需包含生成对抗网络（GANs）: 使用生成对抗网络生成高质量图像。GANs包括一个生成器和一个判别器，通过对抗训练生成逼真的图像。扩散模型（Diffusion Models）: 通过逐步去噪生成图像，是最近一种新兴的图像生成技术。图像生成应用在于艺术创作、虚拟角色设计、图像增强等方向。

文生图方向，在现实生活中应用已经逐渐广泛。在各种应用软件上生成的AI壁纸、AI头像，以及各种AI绘图走入经济市场。AI成长的速度快得令人惊异，我们在将AI工具作为生活辅助工具的同时，也需要对AI在市场上所带来的冲击有所准备。

2.Deepfake技术

Deepfake技术是一种利用人工智能和机器学习生成或伪造视觉内容的技术。它主要依赖于深度学习模型，特别是生成对抗网络（GANs）和自动编码器（Autoencoders）来创建高度逼真的虚假视频或音频。

Deepfake技术使用深度学习算法生成或伪造视觉和听觉内容，通常是通过将一个人的面部表情或声音应用于另一个人的视频或音频上。Deepfake技术主要依赖于两个类型的神经网络：生成器和判别器（在GAN中），或者编码器和解码器（在自动编码器中）。生成器或编码器负责创建虚假的内容，而判别器或解码器则负责识别和修正这些内容，使其更为逼真。

技术在我看来向来是一直把双刃剑，其武器性质的好坏取决于使用人对其应用的用途。非法使用此技术的人可能会利用Deepfake技术创建虚假内容可能会侵犯个人隐私。 Deepfake技术也可能被用来制造虚假新闻、诈骗或误导公众。在这一方面，Deepfake技术面临着伦理上和法律上的问题。

3.AI生图工具介绍

魔塔社区链接魔搭社区

Kolors（可图）模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

代码开源链接：https://github.com/Kwai-Kolors/Kolors

模型开源链接：https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明：https://www.modelscope.cn/learn/575?pid=543

具体可图模型如何使用，可以参考Datawhale教程，以及魔塔官方账号，方便了解更新AI生图前沿的知识。