26|Visual ChatGPT是如何做到边聊边画的?

过去三讲里,我们分别体验了 CLIP、Stable Diffusion 和 ControlNet 这三个模型。我们用这些模型来识别图片的内容,或者通过输入一段文本指令来画图。这些模型都是所谓的多模态模型,能够把图片和文本信息联系在一起。

不过,如果我们不仅仅是要随便找几个关键词画两张画玩个票,而是要在实际的工作环境里生成能用的图片,那么现在的体验还是远远不够的。对于画出来的图我们总有各种各样的修改和编辑的需求。比如,我们总是会遇到各个团队的人对着设计师的图指手画脚地提出各种各样的意见:“能不能把小狗移到图片的右边?”“能不能把背景从草地改成森林?”“我想要一个色彩斑斓的黑。”等等。

所以,理想中的 AI 画画的功能,最好还能配上一个听得懂人话的 AI,能够根据我们这些外行的指手画脚来修改生成的图片。针对这个需求,我们就来介绍一下微软开源的 Visual ChatGPT。

和之前我们自己写代码不同,这一讲我们一起来读一读Visual ChatGPT 这个开源项目的代码,看看它是如何做到能让我们聊着天就把图片给修改完了的。

体验 Visual ChatGPT

我们先来体验一下 Visual ChatGPT 的效果是怎么样的。这一次,Colab 里的 GPU 也不够我们用了。Visual ChatGPT 要加载很多个不同的图片相关的模型,这些模型加起来的显存得有 40GB 以上。

好在,微软通过 HuggingFace 的 Space 功能提供了一个免费的 Space,让你可以直接体验 Visual ChatGPT 的功能。不过,考虑到用的人很多,使用的过程中你的请求会被排队处理,往往要等待很长时间才能完成一条指令。所以,建议花个几美元的小钱,部署一个自己的 Visual ChatGPT 的 Space 来体验一下它的功能。

微软在 HuggingFace 的 Space 里提供了一个可以免费体验的 Visual ChatGPT

可以点击微软提供的 Space 底部的 Duplicate Space,部署一个完全一样的 Visual ChatGPT Space 到自己的账号下,这样就不用和其他人排队等着了。 

因为我们复制的是原先的 Space,所以对应的硬件配置也是和微软免费提供的一样。通过一块 46G 显存的 A10 显卡,我们可以直接装载所有用到的模型。不过,使用 A10 显卡的 Space 是有成本的,一个小时就要花去你 3.15 美元。所以在复制 Space 的时候,有两个参数需要注意。

第一个是 Sleep time settings,我建议你设置成 5 分钟。这样,一旦 5 分钟没有人使用这个 Space,它就会进入休眠状态。而 HuggingFace 在休眠状态下就不会收取你任何费用。只是下一次你要使用这个 Space 的时候,会重新启动整个 Space,需要一点点时间。

另一个是 Space 的 Visibility,我建议你选择 Private。这样,这个 Space 只有你能看到。不然的话,就算你设置了自动休眠,也免不了有人看到你的 Space 上来试一试。如果不断有人来使用你的 Space 的话,它会一直在线运行,而你就是那个付账单的人。

在复制的 Space 部署完成之后,就可以先来试一下 Visual ChatGPT 了。首先需要在右上角输入你的 OpenAI 的 API Key,并按下回车键。这样,整个窗口的下方就会出现可以输入文本的聊天窗口。你可以选择自由输入你想要画的内容,也可以在下面的 Examples 里选择预设好的一些指令。

输入 API KEY 之后一定要按下回车,否则下面的对话输入框无法出现

我们可以分别试一下 Examples 里面给出的指令。

1. 我们先让 Visual ChatGPT 画一幅小猫在花园里奔跑的图片。 

2. 然后再把画面里的小猫换成小狗。

3. 接着去掉画面中的小狗。

4. 再把图片风格换成水彩画。

5. 最后我们让 Visual ChatGPT 描述一下图片的内容。

可以看到,Visual ChatGPT 很好地完成了我们的每一条指令。而这样的交互体验大大提升了我们用 AI 画画的实际体验。比如,上一讲里我们通过 Canny 算法获取了“戴珍珠耳环的少女”画像的轮廓,然后通过 ControlNet 绘制了同样姿势的其他明星的头像。原本这个过程我们是通过一系列的代码来实现的,现在我们完全可以用 Visual ChatGPT,通过一系列的对话向 AI 下达指令来实现。

首先,我们通过 Upload 按钮把“戴珍珠耳环的少女”图片上传上去。

接着,我们在对话框里输入文本 “Generate the canny edge of the image”,Visual ChatGPT 就会把上传图片的边缘提取出来,并且生成一张新的图片。

最后,我们在对话框里输入 “Generate a real color Taylor Swift photo from this canny image”,Visual ChatGPT 就会基于上面边缘检测的轮廓图生成一个新的人像图。

这样,我们不需要撰写任何代码,通过一个聊天

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值