99% 的人都不知道的小技巧:DeepSeek 也支持文生图功能

有朋友问笔者公众号文章里那些 ABAP 相关的配图,是用什么工具绘制的。
笔者之前的文章提到过一些工具:

分享我平时使用的几款免费的 AI 文字生成图片的在线网站

目前我用的比较多的是即梦 AI,没有任何使用门槛,不像 Stable Diffusion 和 MidJourney 那样需要精心设计提示词和指定参数。

即梦 AI 生成的图片,虽然质量和效果上无法和 MidJourney 这种专业级工具相提并论,不过像笔者这样仅仅用在公众号文章配图的场合上,已经是绰绰有余了。

ChatGPT 因为可以借助 Dall-E 模型,所以也能根据文字描述生成图片。不过效果真是一言难尽。

给我生成一张图片:

万里碧空之上的白云里,有一只中国传统造型的龙在翻腾。龙身缠绕着 ABAP 四个大写的英文字母。

我很早就吐槽过了,Dall-E 对于生图中的文字把握的精读,真是低劣得令人发指:

用 ChatGPT 生成 ABAP 海报,失败作品远远多于成功作品

至于 DeepSeek,表面上看,它无法支持文生图功能。这一点可以在 DeepSeek 官网上很容易就测试出来:

但其实有一个小技巧,通过曲线救国的方式,可以让 DeepSeek 直接在对话上下文里,根据文字渲染出图片。

只需要把下面这段文字,喂给 DeepSeek:

你现在是一个AI图片生成机器人,等待我给你一些提示(不需要举例),你用你的想象力去描述这幅图片,并转换成英文用纯文本的形式填充到下面url的占位符{prompt)中:

![image](https://image.pollinations.ai/prompt/{prompt}?width=1024&height=1024&enhance=true&private=true&nologo=true&safe=true&model=flux)

然后照常向 DeepSeek 发出指令即可。

比如下图,我在 DeepSeek 的网页对话里,通过这种方法,生成了一条中国龙的图片,并且包含 ABAP 四个英文字母。

仔细一看我们发给 DeepSeek 的初始提示词,不难分析出这个小把戏的技术原理。

ChatGPT 和 DeepSeek 等对话,都支持以 Markdown 格式输出回复。

![image](https://image.pollinations.ai/prompt/{prompt}?width=1024&height=1024&enhance=true&private=true&nologo=true&safe=true&model=flux) 就是 Markdown 里显示图片的语法。圆括号里维护的就是图片的 url.

再看 https://image.pollinations.ai,pollinations 的字面意思指的是花粉传递给植物花朵的过程,这个网站可以看成一个根据 url 里指定的提示词,自动生成 AI 图片的 API endpoint.

因此本质上,我仍然只是使用了 DeepSeek 的文生文功能,整个流程简述如下:

  1. 让 DeepSeek 把我提供的干巴巴的图片描述(中文)润色了一下,并翻译成了英文。
  2. 润色后的英文图片提示词交付给 Pollinations AI,由后者生成图片。
  3. 生成好的图片 url,在 DeepSeek 对话里通过 Markdown 里的 image 语法显示在浏览器里。

其实就是一个简单的智能体流程。

最后感慨一下,现在的 AI 工具,发展速度真是太快了。今天一觉醒来,听到 manus 发布的消息,白天一整天,我的朋友圈和知识星球又被 manus 刷屏了。笔者也想试用一下,可惜搞不到激活码…

### 实现文本生成功能的本地部署 对于希望利用 DeepSeek 技术栈来实现在给定文本的情况下自动生成对应描述片的应用场景,目前提供的参考资料主要集中在其他特定领域如视觉语言模型克隆[^1]、机器翻译系统构建[^2]以及基于 IPAdapter 的风格迁移学习[^3]。然而针对具体的文本转像任务并没有直接提及。 尽管如此,在现有技术框架下要完成从文本到像的任务通常涉及以下几个方面的考量: #### 准备工作环境 首先确保已经安装了必要的依赖库并配置好 Python 开发环境。接着按照官方指南下载或克隆所需的项目源码至本地计算机上: ```bash git clone https://github.com/deepseek-ai/DeepSeek-VL.git cd DeepSeek-VL ``` #### 安装依赖项 进入项目目录后执行命令以安装所有必需的Python包: ```bash pip install -r requirements.txt ``` #### 获取预训练模型 为了能够顺利运行文本生成功能,还需要获取预先训练好的权重文件。这可能涉及到访问指定链接下载或是通过API接口拉取最新版本的模型参数。 #### 编写脚本调用模型服务 一旦上述准备工作就绪,则可以通过编写简单的Python脚本来测试整个流程是否正常运作。下面给出一段示意性的代码片段用于展示如何加载模型并对输入字符串进行处理从而得到相应的形化输出结果: ```python from transformers import BlipProcessor, BlipForConditionalGeneration import torch processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large") model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to("cuda") def generate_image_from_text(input_text): inputs = processor(text=[input_text], return_tensors="pt").to("cuda") out = model.generate(**inputs) generated_images = processor.decode(out[0], skip_special_tokens=True) return generated_images ``` 需要注意的是这里使用的 `BlipForConditionalGeneration` 和其处理器并非来自之前提到的具体产品线而是更通用的一种解决方案;实际应用时应参照具体产品的文档说明调整相应部分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汪子熙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值