源于AI绘画的爆火，尝试做了一个工具网站

小张Python1

于 2024-09-11 22:14:51 发布

阅读量529

点赞数 3

分类专栏： Django AI绘画文章标签： AI作画

本文链接：https://blog.csdn.net/weixin_42512684/article/details/142151672

版权

Django 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

AI绘画

1 篇文章 0 订阅

订阅专栏

这两天做了一个网页 Demo，实现了一些 AI 图像处理功能，前端用的是 React，后端用的是 Django

现在，Demo 中已经实现的功能有两个：

1，人像分割：从图像中把人物分割出来，用一个透明底背景或纯色背景代替，用户可以指定背景颜色

在这里插入图片描述

2，扩图：将图像向四边进行扩展，每边扩展256px，扩展后的区域与原图风格一致，不会产生明显违和割裂

做这个 Demo 的动机起源于 SD 开源后，在去年做过一个类似的【文生图】网站，接口沿用的是 stable-diffusion-webui 里 api 接口，功能为文本生图、 ControlNet 风格控制、图片 prompt 信息copy 存储等
在这里插入图片描述

当时由于一些其它原因，被搁置没再继续开发下去

近一年伴随 ComfyUi 、SD2、SD3、Flux、Fooocus等开源框架或模型的发布，AI绘画的热度在高地之间不断徘徊

现在，得益于开源贡献者以及各企业的开源模型代码，使得生成的图像在维持内容无限创意同时，可控性也越来越强；如只需输入指令，自动分割或消除图片中的某个区域、提供人物模特与服饰，实现智能穿衣；在保留人物基础形象同时对图像进行风格迁移

ComfyUI 项目的出现加快了这种趋势的形成，workflow(工作流)是项目的核心概念，为了实现某个功能/图像操作，需要借助多模型/多步骤操作，在 worflow 会把每个步骤视为一个节点，例如加载图像，通过连线的方式将节点间串联起来，一个节点的输出对应另一个节点的输入，最后，一个workflow 是由 N 个点和 M 条线组成

视觉模型一般只针对于单一领域，不具有泛化能力，而在日常中我们修改图像的诉求一般较为复杂，若要实现需要多个模型介入，例如，实现消除图片中的某个物体功能，需要：1，需要 image captioning 模型将图像转坏为 txt；2，用分割模型将 image 中目标分割生成 mask；3，用 inpainting + diffusion模型将空白 mask 在进行填补，可能的话还需要再加一步，用detail 相关模型将生成图片再细化输出

因此，目前几乎每个 workflow 都会有多模型组成的痕迹，有的是纯cv 模型，有的可能 CV + LLM 相结合，也就是某种意义上的多模态

虽然近几个月 text-to-video 也比较火，如runaway、kling、openai、pika等，开源的有 Stable Video Diffusion；但现有模型依旧还不成熟，并且对于个人开发者来说，玩耍这类模型所需GPU代价对个人开发者是难以承受的

而继续开发这方面 Demo 的想法，也是在以上背景下又浮现出来；目前 ComfyUI 上手门槛不算很高，但对于一些电脑小白来说，除了面对最基础的Python环境外，还需要针对各种工作流安装对应所需model、插件，有时还会遇到一些插件所用 python库版本不兼容等疑难杂症

demo 目前方向就是为了缓解这个问题，将大部分比较通用，比较火的图片处理工作流作为功能继承在项目中，致力于一键式处理，免去不必要的额外操作

完善demo的周期预计会比较厂，因为除了一些已有的工作流外，还需要针对特殊业务场景开发一些自定义插件或节点，除了一些基础CRUD外，还需要对 Diffusion模型的运行原理以及代码实现有所掌握

小张Python1

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
源于AI绘画的爆火，尝试做了一个工具网站

ComfyUI 项目的出现加快了这种趋势的形成，workflow(工作流)是项目的核心概念，为了实现某个功能/图像操作，需要借助多模型/多步骤操作，在 worflow 会把每个步骤视为一个节点，例如加载图像，通过连线的方式将节点间串联起来，一个节点的输出对应另一个节点的输入，最后，一个workflow 是由 N 个点和 M 条线组成。因此，目前几乎每个 workflow 都会有多模型组成的痕迹，有的是纯cv 模型，有的可能 CV + LLM 相结合，也就是某种意义上的多模态。
复制链接

扫一扫