stable diffusion+LangChain+LLM自动生成图片

最近都在研究和学习stable diffusion和langchain的相关知识,并且看到stable diffusion也是有类似于ChatGLM的api调用方式,那在想有没有可能将stable diffusion也集成到langchain中来呢?看到网上资料比较多的是可以借助chatgpt来辅助stable diffusion提示词的生成,本文就基于此思路来尝试利用LLM+LangChain+stable diffusion实现一句话自动生成图片的功能。

步骤

扩充提示词

使用OpenAI来生成提示词

参照“[AI协同打工,ChatGPT生成提示词+AI作图]”文中的方式生成stable diffusion的提示词

from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
from langchain.chains import LLMChain

_template = """
以下提示用于指导Al绘画模型创建图像。它们包括人物外观、背景、颜色和光影效果,以及图像的主题和风格等各种细节。这些提示的格式通常包括带权重的数字括号,用于指定某些细节的重要性或强调。例如,"(masterpiece:1.4)"表示作品的质量非常重要。以下是一些示例:
1. (8k, RAW photo, best quality, masterpiece:1.2),(realistic, photo-realistic:1.37), ultra-detailed, 1girl, cute, solo, beautiful detailed sky, detailed cafe, night, sitting, dating, (nose blush), (smile:1.1),(closed mouth), medium breasts, beautiful detailed eyes, (collared shirt:1.1), bowtie, pleated skirt, (short hair:1.2), floating hair, ((masterpiece)), ((best quality)),
2. (masterpiece, finely detailed beautiful eyes: 1.2), ultra-detailed, illustration, 1 girl, blue hair black hair, japanese clothes, cherry blossoms, tori, street full of cherry blossoms, detailed background, realistic, volumetric light, sunbeam, light rays, sky, cloud,
3. highres, highest quallity, illustration, cinematic light, ultra detailed, detailed face, (detailed eyes, best quality, hyper detailed, masterpiece, (detailed face), blue hairlwhite hair, purple eyes, highest details, luminous eyes, medium breats, black halo, white clothes, backlighting, (midriff:1.4), light rays, (high contrast), (colorful)

"""

llm = OpenAI(temperature=0)
prompt = PromptTemplate(
    input_variables=["desc"],
    template=_template3,
)

chain = LLMChain(prompt=prompt,llm=llm)

res = chain.run("湖人总冠军")

print(res)

  • 生成的提示词如下:

(masterpiece:1.4), ultra-detailed, 1man, strong, solo, detailed basketball court, detailed stadium, night, standing, celebrating, (fist pump), (smile:1.1), (closed mouth), muscular body, beautiful detailed eyes, (jersey:1.1), shorts, (short hair:1.2), floating hair, (trophy:1.3), (confetti:1.2), (fireworks:1.2), (crowd cheering:1.2), (high contrast), (colorful)

将提示词直接输入到stable diffusion webui中得到结果如下:

image.png

格式化输出

为了确保输出的结果可以方便解析,可以再加入一些引导,最终的提示词如下:

_template = """
以下提示用于指导Al绘画模型创建图像。它们包括人物外观、背景、颜色和光影效果,以及图像的主题和风格等各种细节。这些提示的格式通常包括带权重的数字括号,用于指定某些细节的重要性或强调。例如,"(masterpiece:1.4)"表示作品的质量非常重要。以下是一些示例:
1. (8k, RAW photo, best quality, masterpiece:1.2),(realistic, photo-realistic:1.37), ultra-detailed, 1girl, cute, solo, beautiful detailed sky, detailed cafe, night, sitting, dating, (nose blush), (smile:1.1),(closed mouth), medium breasts, beautiful detailed eyes, (collared shirt:1.1), bowtie, pleated skirt, (short hair:1.2), floating hair, ((masterpiece)), ((best quality)),
2. (masterpiece, finely detailed beautiful eyes: 1.2), ultra-detailed, illustration, 1 girl, blue hair black hair, japanese clothes, cherry blossoms, tori, street full of cherry blossoms, detailed background, realistic, volumetric light, sunbeam, light rays, sky, cloud,
3. highres, highest quallity, illustration, cinematic light, ultra detailed, detailed face, (detailed eyes, best quality, hyper detailed, masterpiece, (detailed face), blue hairlwhite hair, purple eyes, highest details, luminous eyes, medium breats, black halo, white clothes, backlighting, (midriff:1.4), light rays, (high contrast), (colorful)

仿照之前的提示,写一段描写如下要素的提示:
{desc}

你应该仅以 JSON 格式响应,如下所述:
返回格式如下:
{{
  "question":"$YOUR_QUESTION_HERE",
  "answer": "$YOUR_ANSWER_HERE"
}}
确保响应可以被 Python json.loads 解析。
"""

最终生成的结果如下:

{
  "question":"湖人总冠军",
  "answer": "(masterpiece:1.4), ultra-detailed, 1man, strong, solo, detailed basketball court, detailed stadium, night, standing, celebrating, (fist pump), (smile:1.1), (closed mouth), muscular body, beautiful detailed eyes, (jersey:1.1), shorts, (short hair:1.2), floating hair, (trophy:1.3), (confetti:1.2), (fireworks:1.2), (crowd cheering:1.2), (high contrast), (colorful)"
}

这样我们就可以比较方便的解析数据了

# 解析json
import json
result = json.loads(res)
print("result:",result)
result["answer"]

使用ChatGLM来生成提示词

llm = ChatGLM(temperature=0.1,history=prompt_history)
prompt = PromptTemplate(
    input_variables=["desc"],
    template=_template,
)

chain = LLMChain(prompt=prompt,llm=llm)

ChatGLM基于[ChatGLM 集成进LangChain工具]的封装

最终生成的效果不是很好,这里就不展示了。主要问题包括:1.没有按照指令生成json格式;2.生成的描述很多都是中文形式的。

[MagicPrompt]自动续写SD提示词

from transformers import AutoModelForCausalLM, AutoTokenizer,pipeline

text_refine_tokenizer = AutoTokenizer.from_pretrained("Gustavosta/MagicPrompt-Stable-Diffusion")
text_refine_model = AutoModelForCausalLM.from_pretrained("Gustavosta/MagicPrompt-Stable-Diffusion")
text_refine_gpt2_pipe = pipeline("text-generation", model=text_refine_model, tokenizer=text_refine_tokenizer, device="cpu")

text = "湖人总冠军"

refined_text = text_refine_gpt2_pipe(text)[0]["generated_text"]

print(refined_text)

输出如下:

湖人总冠军 港子 Imoko Ikeda, Minaba hideo, Yoshitaka Amano, Ruan Jia, Kentaro Miura, Artgerm, post processed, concept

纯英文输入,最终的输出如下:

lakers championship winner trending on artstation, painted by greg rutkowski

可见MagicPrompt对于中文输入不是很友好,如果想使用的话,需要将输入先翻译成英文。

调用stable diffusion的api生成图片

参考:[Mikubill/sd-webui-controlnet]。主要代码如下:

import cv2
import requests
import base64
import re

ENDPOINT = "http://localhost:7860"

def do_webui_request(url, **kwargs):
    reqbody = {
        "prompt": "best quality, extremely detailed",
        "negative_prompt": "longbody, lowres, bad anatomy, bad hands, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality",
        "seed": -1,
        "subseed": -1,
        "subseed_strength": 0,
        "batch_size": 1,
        "n_iter": 1,
        "steps": 15,
        "cfg_scale": 7,
        "width": 512,
        "height": 768,
        "restore_faces": True,
        "eta": 0,
        "sampler_index": "Euler a",
        "controlnet_input_images": [],
        "controlnet_module": 'canny',
        "controlnet_model": 'control_canny-fp16 [e3fe7712]',
        "controlnet_guidance": 1.0,
        
    }
    reqbody.update(kwargs)
    print("reqbody:",reqbody)
    r = requests.post(url, json=reqbody)
    return r.json()

  • 调用api
import io
from PIL import Image

prompt = "a cute cat"
resp = do_webui_request(
    url=ENDPOINT + "/sdapi/v1/txt2img",
    prompt=prompt,
)

image = Image.open(io.BytesIO(base64.b64decode(resp["images"][0])))
display(image)

如果需要使用api功能,stable diffusion 需要开启api功能,启动时需要加上--api

结合stable diffusion+LangChain+LLM自动生成图片

stable diffusion+LangChain+OpenAI

  • 封装实现
import io, base64
import uuid
from PIL import Image

class RefinePrompt:
  
    llm = OpenAI(temperature=0)
    prompt = PromptTemplate(
        input_variables=["desc"],
        template=_template,
    )

    chain = LLMChain(prompt=prompt,llm=llm)
    def run(self,text):
        res = self.chain.run(text)
        # 解析json
        result = json.loads(res)
        return result["answer"]

class T2I:
    def __init__(self):
        self.text_refine = RefinePrompt()
        
    def inference(self, text):
        image_filename = os.path.join('output/image', str(uuid.uuid4())[0:8] + ".png")
        refined_text = self.text_refine.run(text)
        print(f'{text} refined to {refined_text}')
        resp = do_webui_request(
            url=ENDPOINT + "/sdapi/v1/txt2img",
            prompt=refined_text,
        )
        image = Image.open(io.BytesIO(base64.b64decode(resp["images"][0])))
        image.save(image_filename)
        print(f"Processed T2I.run, text: {text}, image_filename: {image_filename}")
        return image_filename,image

  • 使用封装的类,并且展示图片(在python的notebook中展示)
t2i = T2I()
image_filename,image = t2i.inference("湖人总冠军")
print("filename:",image_filename)
display(image)

image.png

stable diffusion+MagicPrompt

  • 封装实现
from transformers import AutoModelForCausalLM, AutoTokenizer, CLIPSegProcessor, CLIPSegForImageSegmentation
from transformers import pipeline, BlipProcessor, BlipForConditionalGeneration, BlipForQuestionAnswering
import io, base64
import uuid
from PIL import Image

class T2I:
    def __init__(self, device):
        print("Initializing T2I to %s" % device)
        self.device = device
        self.text_refine_tokenizer = AutoTokenizer.from_pretrained("Gustavosta/MagicPrompt-Stable-Diffusion")
        self.text_refine_model = AutoModelForCausalLM.from_pretrained("Gustavosta/MagicPrompt-Stable-Diffusion")
        self.text_refine_gpt2_pipe = pipeline("text-generation", model=self.text_refine_model, tokenizer=self.text_refine_tokenizer, device=self.device)
        
    def inference(self, text,image_path=None):
        image_filename = os.path.join('output/image', str(uuid.uuid4())[0:8] + ".png")
        refined_text = self.text_refine_gpt2_pipe(text)[0]["generated_text"]
        print(f'{text} refined to {refined_text}')
        resp = do_webui_request(
            url=ENDPOINT + "/sdapi/v1/txt2img",
            prompt=refined_text,
            controlnet_input_images=[readImage(image_path) if image_path else None], 
        )
        image = Image.open(io.BytesIO(base64.b64decode(resp["images"][0])))
        image.save(image_filename)
        print(f"Processed T2I.run, text: {text}, image_filename: {image_filename}")
        return image_filename,image


  • 使用封装的类,并且展示图片(在python的notebook中展示)
t2i = T2I("cpu")
image_filename,image = t2i.inference("lakers championship")
print("filename:",image_filename)
display(image)

image.png

总结

本文使用了stable diffusion+LangChain+LLM来实现一句话自动生成图片的功能,虽然最终的效果还不是很满意,但是可以看出来方案可行的。如果还需要优化效果的话,可以尝试:1.针对特不同模型需要输入该模型的更多的示例来辅助和优化最终模型的生成;2.尝试结合controlnet来更好的控制最终图片的生成。

ps:在学习和参考[Mikubill/sd-webui-controlnet]的代码时,发现了其中有一个模仿“Visual ChatGPT”的示例代码,还挺有意思的,接下来也会进一步分析其实现,敬请期待。

  • 31
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Stable Diffusion WebUI ChilloutMix/ControlNet是一种稳定的网络用户界面,适用于ChilloutMix/ControlNet系统。该系统是一种用于控制和管理网络的解决方案。 Stable Diffusion WebUI ChilloutMix/ControlNet具有以下特点和功能。首先,它提供了直观和用户友好的界面,使用户能够轻松地操作和管理系统。该界面具有清晰的布局和易于理解的图形化界面,使用户可以快速找到所需的信息和功能。 其次,Stable Diffusion WebUI ChilloutMix/ControlNet具有高度稳定和可靠的性能。它能够处理大量的数据和信息,并在工作中保持稳定,从而确保系统的高效运行。 此外,该用户界面还提供了多种功能,包括远程监视和控制系统,实时数据显示和记录,警报和通知管理,以及系统配置和设置等。通过远程监视和控制功能,用户可以在任何地点实时监视和控制系统的状态和运行情况。同时,实时数据显示和记录功能可以提供关于系统运行的实时数据,帮助用户更好地了解系统的性能。 此外,该用户界面还提供警报和通知管理功能,以便及时通知用户系统的异常情况。用户可以配置所需的警报条件,并接收警报和通知消息,以便及时采取措施。 最后,通过Stable Diffusion WebUI ChilloutMix/ControlNet,用户可以对系统进行配置和设置,以满足特定的需求和要求。用户可以根据系统的工作要求进行参数配置,并进行必要的设置和调整,以确保系统的最佳性能。 总的来说,Stable Diffusion WebUI ChilloutMix/ControlNet是一款稳定可靠、功能丰富的网络用户界面,能够有效地管理和控制ChilloutMix/ControlNet系统。它提供了直观和易于使用的界面,具有多种功能,可以满足用户对系统控制和监视的需求。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值