智谱AI开源CogView4,支持中英文,性能比肩flux!

背景与定位

CogView4 是由 智谱AI (清华大学 KEG 实验室孵化企业)推出的 开源文生图模型 ,主打 中英双语支持 和 高质量图像生成 ,尤其在中文文字生成能力上具有突破性。
在这里插入图片描述

核心定位

全球首个支持生成汉字的开源文生图模型,填补了中文场景的空白。
遵循 Apache 2.0 开源协议 ,允许商业使用,降低企业接入门槛9。

发布时间

2025年3月4日,团队在 GitHub 开源了基于 Diffusers 的版本(参数量 6B/60亿 )。

模型架构与技术特点

基础架构

基于 Transformer 架构的扩散模型 ,通过迭代去噪生成图像。
优化参数规模(6B)和训练数据,提升生成效率与质量。
在这里插入图片描述

核心能力

  • 中英双语支持 :
    原生支持中文提示词输入,避免翻译导致的语义偏差46。
  • 文字生成 :
    能在图像中自然融入汉字(如广告标语、书籍封面文字),文字与背景风格高度协调79。
  • 分辨率灵活性 :
    支持生成 512px 至 2048px 的宽高范围,适配多种应用场景810。
  • 训练数据 :
    使用 高质量合成图像描述数据集 ,覆盖多样化的图像内容和风格。

性能与优势

在这里插入图片描述

生成质量

在 DPG-Bench 等基准测试中表现优异,尤其擅长中文场景(如生成带有书法、标语的图像)。
用户反馈显示,生成文字的清晰度和自然度接近真实图像。

开源生态

提供 Diffusers 版本 ,兼容 Hugging Face 生态工具链,降低开发门槛。
社区活跃,开发者可快速部署并参与迭代。

应用场景

  • 创意设计 :生成海报、插画、社交媒体配图等。
  • 广告营销 :快速制作含品牌标语的视觉内容。
  • 教育领域 :生成带文字说明的教材插图或科普图像。

部署与使用

推理要求和模型介绍

分辨率: 长宽均需满足 512px - 2048px 之间,需被32整除, 并保证最大像素数不超过 2^21 px。
精度: BF16 / FP32 (不支持FP16,会出现溢出导致纯黑图片)
使用 BF16 精度, batchsize=4 进行测试,显存占用如下表所示:
在这里插入图片描述

使用示例


from diffusers import CogView4Pipeline
from modelscope import snapshot_download
import torch

model_dir = snapshot_download("ZhipuAI/CogView4-6B")
pipe = CogView4Pipeline.from_pretrained(model_dir, torch_dtype=torch.bfloat16)

# Open it for reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
    prompt=prompt,
    guidance_scale=3.5,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview4.png")

支持直接输入中文提示词,生成含文字的图像。
在这里插入图片描述
在这里插入图片描述

相关文献

arxv技术报告
modelscope在线体验地址
github地址
模型下载

### 文本到图像提示词的批量生成 为了实现文本到图像提示词的批量生成,可以考虑以下几种方法和技术: #### 1. 自动化自然语言处理模型 利用预训练的语言模型(如GPT系列、BERT等),通过输入一组关键词或者主题描述,自动生成多样化的提示词。这些模型能够理解上下文并生成连贯的句子[^1]。 ```python from transformers import pipeline generator = pipeline('text-generation', model='gpt2') keywords = ["风景", "日落"] prompts = generator(keywords, max_length=50) for prompt in prompts: print(prompt['generated_text']) ``` 上述代码片段展示了一个简单的例子,其中使用了Hugging Face Transformers库中的`pipeline`函数来加载GPT-2模型,并针对给定的关键字生成可能的提示词。 #### 2. 条件语义增强技术 借鉴CSA-GAN的研究成果,在生成过程中加入条件语义信息以提高生成质量和多样性。这种方法可以通过编码器解码器架构完成,先提取文本特征再映射至视觉空间。 #### 3. 提示扩展算法 类似于CogView3项目中提到的技术,采用特定策略扩充原始短句成为更加详细的描述性文字。这种做法有助于提升最终产出图片的质量以及与预期概念的一致性[^2]。 #### 4. 数据驱动型模板匹配法 建立一个庞大的高质量样本数据库,当接收到新的请求时,检索最相似的历史案例作为基础模板加以修改调整形成新版本。此方式依赖于前期积累大量优质素材资源。 综上所述,无论是借助先进的AI算法还是传统编程技巧都可以达成目的;具体选择取决于实际应用场景需求和个人偏好等因素影响下的权衡考量结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cherry Xie

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值