Python结合AI生成图像艺术作品代码及介绍-CSDN博客

本文链接：https://blog.csdn.net/a247534855/article/details/147294578

为实现生成图像艺术作品，我选用 Stable Diffusion 库结合 Python 编写代码。下面先展示代码，再详细介绍其原理、模块及使用方法等内容。

生成图片代码

import torch
from diffusers import StableDiffusionPipeline

# 加载预训练模型
pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# 定义生成图像的提示词
prompt = "A beautiful oil painting of a sunset over the ocean, with vibrant colors and expressive brushstrokes"

# 生成图像
image = pipe(prompt).images[0]

# 保存生成的图像
image.save("generated_artwork.png")

代码介绍

1. 库的导入

import torch

from diffusers import StableDiffusionPipeline

这里导入了两个关键的库。torch是 PyTorch 库，它是一个用于机器学习的开源框架，提供了张量计算和深度学习模型构建等功能。在本代码中，它为模型的计算提供底层支持，如张量的运算、模型的加载与推理等。diffusers库是 Hugging Face 开发的一个用于扩散模型（Diffusion Models）的库，StableDiffusionPipeline类是其中用于加载和运行 Stable Diffusion 模型的关键组件。Stable Diffusion 是一种基于扩散模型的文本到图像生成模型，能够根据输入的文本提示生成高质量的图像。

2. 加载预训练模型

pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16)

pipe = pipe.to("cuda")

from_pretrained方法用于从 Hugging Face 的模型仓库加载预训练的 Stable Diffusion 模型，这里指定的模型版本是runwayml/stable-diffusion-v1-5。torch_dtype=torch.float16参数指定使用半精度浮点数来加载模型，这样可以减少内存占用，加快推理速度，但可能会在一定程度上损失一些精度。在实际应用中，如果对精度要求极高，也可以选择使用torch.float32。

pipe.to("cuda")这一步是将加载好的模型移动到 GPU 上进行计算。如果你的计算机没有可用的 GPU，也可以将"cuda"改为"cpu"，但计算速度会明显变慢，尤其是在处理复杂图像生成任务时。

3. 定义生成图像的提示词

prompt = "A beautiful oil painting of a sunset over the ocean, with vibrant colors and expressive brushstrokes"

prompt变量用于定义生成图像的文本描述。这个提示词是引导模型生成特定风格和内容图像的关键。在这个例子中，提示词描述了一幅美丽的海洋日落油画，强调了鲜艳的色彩和富有表现力的笔触。提示词的准确性和丰富性直接影响生成图像的质量和符合度。你可以根据自己的需求修改这个提示词，比如将 “oil painting” 改为 “watercolor” 来生成水彩画风格，或者改变场景描述来生成不同主题的图像。

4. 生成图像

image = pipe(prompt).images[0]

这一行代码调用了加载好的StableDiffusionPipeline对象pipe，将提示词prompt作为参数传入。pipe对象会根据提示词进行推理计算，生成一个包含多个图像的列表（在默认情况下，StableDiffusionPipeline每次调用会生成一个图像列表，即使只生成一张图，也会以列表形式返回）。这里我们通过[0]索引取出列表中的第一张图像，赋值给image变量。

5. 保存生成的图像

image.save("generated_artwork.png")

最后，使用save方法将生成的图像保存为本地文件，文件名是generated_artwork.png。你可以根据需要修改保存的文件名和文件格式，StableDiffusionPipeline生成的图像默认是PIL（Python Imaging Library）库的Image对象，支持常见的图像格式保存，如.jpg、.png等。

代码扩展与优化方向

参数调整：StableDiffusionPipeline支持多个参数调整生成效果，如num_inference_steps（推理步数，步数越多图像越精细，但计算时间也越长）、guidance_scale（引导尺度，控制生成图像与提示词的匹配程度，值越大越贴近提示词，但可能会损失一些创意）等。可以通过修改这些参数来优化生成的图像质量。
添加负提示词：可以通过negative_prompt参数传入负提示词，用于描述不希望在图像中出现的元素，进一步精准控制生成图像的内容。
集成交互界面：可以结合gradio或streamlit等库，开发一个简单的图形化交互界面，方便用户输入提示词并即时查看生成的图像艺术作品。

以上代码只是一个基础示例，通过灵活调整和扩展，可以利用 Python 和 Stable Diffusion 模型创作出丰富多样的图像艺术作品。