【Datawhale×魔塔AI夏令营】简单稳定的图片生成

最新推荐文章于 2025-05-17 13:34:47 发布

ERICA_ACOCONUT

最新推荐文章于 2025-05-17 13:34:47 发布

阅读量476

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/ERICA_ACOCONUT/article/details/141098210

版权

参加了魔塔AI夏令营的第一个打卡任务，操作简易，顺利生成图片及模型的同时，也去了解了各类生成图像的AI引擎。

由OpenAI开发，DALL·E模型擅长根据自然语言描述生成复杂且高质量的图像。最早的DALL·E发布于2021年，其后有多个升级版本，包括DALL·E 2。该模型可以生成从超现实的场景到极具细节的艺术风格图像。例如，用户可以要求模型生成一幅"骑着独角兽的宇航员在火星上喝咖啡"的图像。DALL·E具备理解复杂场景描述的能力，并能基于不同风格（如水彩画、油画、3D渲染等）进行生成。

Stable Diffusion由Stability AI开发，属于扩散模型的一种。该模型利用噪声扩散过程，通过逐步减弱噪声来生成图像。其优势在于能够生成高分辨率图像，并且可以控制生成过程中的各个步骤，从而实现更精细的创作控制。Stable Diffusion的另一个显著特点是其开源性，允许用户对模型进行定制和优化。被广泛用于自定义艺术创作、图像增强、AI艺术社区等。

MidJourney是一种基于用户输入文本描述生成图像的AI工具。虽然它的技术细节相对保密，但其生成效果得到了广泛认可。以其生成的超现实主义风格图像而闻名，常用于创造出具有艺术氛围的图片。用户通过在MidJourney的Discord频道输入文本提示，可以生成与提示相关的艺术图像。

DeepArt使用卷积神经网络（CNN）将用户提供的照片转化为指定艺术风格的图像。它利用风格迁移技术，将图像与特定艺术风格（如梵高、毕加索的风格）相结合。该模型的核心是风格迁移，通过学习和模拟艺术大师的风格，将普通照片转换为具有特定风格的艺术作品。

Runway ML提供了一系列AI工具，其中包含多个用于生成图像的模型。它支持艺术家、设计师使用各种AI工具进行图像创作。它提供了用户友好的界面和多种预训练模型，可以轻松进行图像生成和视频处理。Runway ML特别强调创意与AI技术的结合，帮助用户通过简单的操作实现复杂的创作。

Artbreeder基于生成对抗网络（GAN）技术，允许用户通过调整不同图像属性生成新图像。用户可以混合多张图片，并通过滑动条调整图片的各种特征，如脸型、表情、颜色等。其独特之处在于其强大的图像混合和调节功能。用户不仅可以生成完全原创的图像，还可以通过“育种”来创造图像的“后代”，生成类似家族谱系的图像序列。

相比市面上许多开放用于娱乐的AI生图软件，通过PAI实例生成的图片更加稳定，但与此同时，需要摸索其对关键词的程度来调整，以便生成更有故事性逻辑的图片。