用大模型生成带文字的海报

本文介绍了如何通过GitHub项目GitHub-liangwq/Chatglm_lora_multi-gpu中的代码,结合VLM和diffusion模型实现文本生成海报的功能。流程涉及环境配置、模型下载、生图、字排版、图文混合、审核验证以及使用gradioAPI生成图片。文章还展示了如何使用Auto_Text_Layout进行文字布局和审美评估模块的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文代码讲整合在:
GitHub - liangwq/Chatglm_lora_multi-gpu: chatglm多gpu用deepspeed和
这篇文章介绍如何利用VLM+diffusion模型来搭建一条文本生成海报的链路。搭建这条链路有两个应用:1.实际的业务中需要批量生产文字+图海报可以用,2.可以用来造训练数据。
首先介绍下这篇文章的整体框架安排:
1.生图模块
2.字排版模块
3.图文混合模块
4.图审核验证模块
image.png

生成模块

部署文本生成图片模型pixart-sigma:

1.安装环境和下载源码

conda create -n pixart python==3.9.0
conda activate pixart
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia

git clone https://github.com/PixArt-alpha/PixArt-sigma.git
cd PixArt-sigma
pip install -r requirements.txt

2.下载模型

# SDXL-VAE, T5 checkpoints
git lfs install
git clone https://huggingface.co/PixArt-alpha/pixart_sigma_sdxlvae_T5_diffusers output/pretrained_models/pixart_sigma_sdxlvae_T5_diffusers

# PixArt-Sigma checkpoints
python tools/download.py # environment eg. HF_ENDPOINT=https://hf-mirror.com can use for HuggingFace mirror

3.启动模型后台

python scripts/interface.py --model_path output/pretrained_models/PixArt-Sigma-XL-2-2k-MS.pth --image_size 2048 --port 6006

4.gradio_cleint前端API方式生成图片

from gradio_client import Client
 #建立后台服务器链接
client = Client("http://0.0.0.0:6006")
#查看请求参数
client.view_api(return_format="dict")

#传参请求生成图
out_data = client.predict("An adorable girl with curly hair, innocently laughing with a big smile, looking very happy Poster style --ar 9:16","dpm-solver",14,4.5,0,True)
#生成图片可视化
import matplotlib.pyplot as plt
from PIL import Image

# 图片地址
image_path = out_data[0]

# 打开并显示图片
img = Image.open(image_path)
plt.imshow(img)
plt.axis('off')  # 关闭坐标轴
plt.show()

image.png
使用Gradio客户端来与一个后台服务器建立连接,并通过传递参数请求生成一张图片。首先建立了与服务器的连接,然后查看了请求参数的格式。接着使用client.predict方法传递参数来生成一张图片,参数包括描述图片内容的文本、模型名称、以及其他参数。生成的图片保存在out_data中,然后通过Matplotlib和PIL库来打开和显示这张图片。
具体步骤包括:

  1. 建立与服务器的连接。
  2. 查看请求参数的格式。
  3. 使用client.predict方法传递参数请求生成一张图片。
  4. 从生成的结果中获取图片地址。
  5. 使用PIL库打开并显示生成的图片。

最后一段代码使用Matplotlib显示了生成的图片,关闭了坐标轴以便更清晰地展示图片内容。

文字排版模块

def auto_text_layout(inputext=[], x=0,y=0,row_spacing=100, col_spacing=80, vertical
### 海报设计中的大型模型与AI工具 在当前的技术背景下,利用大型语言模型(LLMs)和其他多模态技术可以显著提升海报设计的自动化水平和创意表现力。以下是关于如何使用大型模型以及相关AI工具来完成海报设计的具体介绍。 #### 基于多模态框架的智能版面设计 DocLap 是一种扩展自 mPLUG-Owl 的多模态框架,其核心组件包括 Llama-7b v1 作为语言模型、CLIP ViT-L/14 作为视觉编码器以及一个专门设计的视觉抽象器模块[^3]。该框架能够通过将图像特征转化为标准化标记并与文本嵌入对齐的方式,支持复杂的跨模态任务,例如自动布局生成和风格化设计。 对于海报设计而言,这种架构的优势在于它可以理解并综合多种类型的输入数据——既可以从给定的主题或文案中提取信息,也可以分析参考图片的内容特性从而推荐合适的配色方案、字体样式以及其他视觉元素的选择。 #### 技术实现的关键环节 为了使上述理论付诸实践,在开发过程中需重点关注以下几个方面: 1. **模型选型** 鉴于 DocLap 使用的是 Llama-7b v1 版本的语言模型,如果目标应用场景更加注重中文支持,则可能需要考虑替换为更适合处理本地化需求的国内预训练模型版本[^1]。此外,随着技术进步,后续迭代更新后的更强大变体也可能成为更好的选项。 2. **定制化微调** 对基础模型进行特定领域内的参数优化是非常必要的步骤之一。这通常涉及两个层面的工作:一方面是对新增加数值标记对应的向量表示重新学习;另一方面则是针对具体业务场景下的指令序列执行针对性强化训练。 3. **交互界面构建** 用户友好型的操作平台可以让非技术人员也轻松上手操作复杂算法驱动的功能集合。因此,除了后台逻辑搭建外,还需要精心构思前端展示形式及其背后关联机制的设计工作。 #### 推荐使用的在线资源和服务 当探索适用于实际项目的各类人工智能辅助创作工具有困难时,“AI Tool Hunt”网站提供了一个全面汇总优秀解决方案的地方[^2]。这里不仅罗列了许多专注于不同细分方向的产品列表,还附详细的描述说明帮助访客快速找到契合自己期望的理想选择对象。 ```python from doclap import DocLapModel, LayoutGenerator model = DocLapModel(pretrained_model="mplug_owl", llm_version="llama_v1") generator = LayoutGenerator(model) theme_text = "科技未来" reference_image_path = "./example_poster.jpg" layout_result = generator.generate(theme=theme_text, reference_img=reference_image_path) print(layout_result) ``` 以上代码片段展示了如何加载预先配置好的 DocLap 模型实例,并调用其中的方法传入主题文字及参照图路径以获取最终输出结果。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值