ControlNet作者新作Paints-Undo：一键模拟人类绘画过程，再也没人说你的图是AI生成的了！

Python程序员小泉

于 2024-08-26 09:30:00 发布

阅读量850

点赞数 18

分类专栏： SD教程 AI绘画文章标签：人工智能 AI作画 stable diffusion AI绘画 ControlNet

本文链接：https://blog.csdn.net/m0_59162248/article/details/141493613

版权

AI绘画同时被 2 个专栏收录

205 篇文章 15 订阅

订阅专栏

SD教程

177 篇文章 4 订阅

订阅专栏

ControlNet作者敏神又有新项目了。

Paints-Undo 可以生成模拟人类绘画过程的动画。支持输入单图倒推出绘制这个图片某一步的过程，也可以给两张图，生成一个绘制过程动画。

再有人说你的图是生成的就把这个拿给他看，哈哈。下面先看一下展示的效果，本地部署和网页试用都在文章下方，感兴趣的小伙伴可以点击链接体验。

PaintsUndo介绍

PaintsUndo：数字绘画中绘画行为的基础模型

Paints-Undo 是一个旨在提供人类绘画行为基础模型的项目，希望未来的人工智能模型能够更好地满足人类艺术家的真实需求。

“Paints-Undo”这个名字的灵感来自于相似性，即模型的输出看起来就像在数字绘画软件中多次按下“撤消”按钮（通常是 Ctrl+Z）。

Paints-Undo 提出了一系列模型，以图像作为输入，然后输出该图像的绘制序列。该模型展示了各种人类行为，包括但不限于素描、着墨、着色、阴影、变换、左右翻转、颜色曲线调整、更改图层可见性，甚至在绘画过程中更改整体想法。

模型说明

目前发布了 paints_undo_single_frame 和 paints_undo_multi_frame。分别称之为单帧模型和多帧模型。

单帧模型输入一张图片和一个operation step，输出一张图片。假设一幅作品总需要1000次人为的操作（比如一笔画就是一次操作），是一个operation step 0~999的int型数字。0是最终完成的作品，999是纯白画布上画出的第一笔画。你可以把这个模型理解成一个“撤销”（或者叫Ctrl+Z）模型。你输入最终完成的图片，并指定要“Ctrl+Z”多少次，模型就会给你一个“模拟”的截图，如果你的值为operation step100，那么就意味着你要在这张图片上模拟“Ctrl+Z”100次，得到第100次“Ctrl+Z”之后的样子。
多帧模型以两幅图像作为输入，输出两幅输入图像之间的 16 个中间帧。结果比单帧模型更加一致，但速度也更慢，缺乏“创造力”，并且限制在 16 帧内。

项目中默认的方法是一起使用它们。会先对单帧模型进行大约 5-7 次推理，得到 5-7 个“关键帧”，然后再使用多帧模型对这些关键帧进行“插值”，从而真正生成一段相对较长的视频。

理论上，该系统有多种用途，甚至可以制作无限长的视频，但实际上，当最终帧数约为 100-500 时，效果会很好。

模型架构

paints_undo_single_frame

该模型是 SD1.5 的改进架构，针对不同的 beta 调度程序、剪辑跳过和上述operation step条件进行训练。

文本编码器 CLIP ViT-L/14 的最后一层被永久删除。该operation step条件以类似于 SDXL 的额外嵌入的方式添加到层嵌入中。

此外，由于此模型的唯一目的是处理现有图像，因此该模型与 WD14 标记器严格一致，没有任何其他增强。您应该始终使用 WD14 标记器来处理输入图像以获取提示。否则，结果可能会有缺陷。人工编写的提示未经测试。

paints_undo_multi_frame

该模型是通过从VideoCrafter系列恢复而进行训练的，但未使用原始 Crafter lvdm，所有训练/推理代码均完全从头开始实现。

整体架构类似Crafter，包含5个组件，3D-UNet，VAE，CLIP，CLIP-Vision，Image Projection。

VAE：VAE 与从ToonCrafter中提取的动漫 VAE 完全相同。
3D-UNet：3D-UNet 是在 Crafters 的基础上修改的，对注意力模块进行了修订。
CLIP：SD2.1的CLIP。
CLIP-Vision：Clip Vision (ViT/H) 通过插入位置嵌入来支持任意宽高比。
图像投影：实现了一个微型转换器，它以两帧作为输入，每帧输出 16 个图像嵌入。

效果展示

试用教程

Gradio 界面

步骤 0：上传图像或单击页面底部的示例图像。
步骤 1：在标题为“步骤 1”的 UI 中，单击生成提示以获取全局提示。
步骤 2：在标题为“步骤 2”的用户界面中，单击“生成关键帧”。您可以在左侧更改种子或其他参数。
步骤 3：在标题为“步骤 3”的用户界面中，单击“生成视频”。您可以在左侧更改种子或其他参数。

本地部署

本地部署 PaintsUndo：
git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py

推理是在 Nvidia 4090 和 3090TI 上使用 24GB VRAM 进行测试的。它也可以与 16GB VRAM 配合使用，但与 8GB 配合使用则不行。我的估计是，在极端优化（包括权重卸载和切片注意力）下，理论上最低 VRAM 要求约为 10~12.5 GB。

大约需要 5 到 10 分钟才能处理一张图片。通常情况下，您将获得一段时长为 25 秒、FPS 为 4 的视频，分辨率为 320x512、512x320、384x448 或 448x384。

关于AI绘画技术储备

学好 AI绘画不论是就业还是做副业赚钱都不错，但要学会 AI绘画还是要有一个学习规划。最后大家分享一份全套的 AI绘画学习资料，给那些想学习 AI绘画的小伙伴们一点帮助！

感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。

需要的可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了，安装就可直接上手！
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述
这份完整版的学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Python程序员小泉

关注

18
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
ControlNet作者新作Paints-Undo：一键模拟人类绘画过程，再也没人说你的图是AI生成的了！

PaintsUndo：数字绘画中绘画行为的基础模型Paints-Undo 是一个旨在提供人类绘画行为基础模型的项目，希望未来的人工智能模型能够更好地满足人类艺术家的真实需求。“Paints-Undo”这个名字的灵感来自于相似性，即模型的输出看起来就像在数字绘画软件中多次按下“撤消”按钮（通常是 Ctrl+Z）。Paints-Undo 提出了一系列模型，以图像作为输入，然后输出该图像的绘制序列。
复制链接

扫一扫