源于AI绘画的爆火,尝试做了一个工具网站

这两天做了一个 网页 Demo,实现了一些 AI 图像处理功能,前端用的是 React,后端用的是 Django

现在 ,Demo 中已经实现的功能有两个:

  • 1,人像分割:从图像中把人物分割出来,用一个透明底背景或纯色背景代替,用户可以指定背景颜色

在这里插入图片描述

  • 2,扩图:将图像向四边进行扩展,每边扩展256px,扩展后的区域与原图风格一致,不会产生明显违和割裂
    在这里插入图片描述

做这个 Demo 的动机起源于 SD 开源后,在去年做过一个类似的 【文生图】网站,接口沿用的是 stable-diffusion-webui 里 api 接口,功能为文本生图、 ControlNet 风格控制、图片 prompt 信息copy 存储等
在这里插入图片描述

当时由于一些其它原因,被搁置没再继续开发下去

近一年伴随 ComfyUi 、SD2、SD3、Flux、Fooocus等开源框架或模型的发布,AI绘画的热度在高地之间不断徘徊

现在,得益于开源贡献者以及各企业的开源模型代码,使得生成的图像在维持内容无限创意同时,可控性也越来越强;如 只需输入指令,自动分割或消除图片中的某个区域、提供人物模特与服饰,实现智能穿衣;在保留人物基础形象同时对图像进行风格迁移

ComfyUI 项目的出现加快了这种趋势的形成,workflow(工作流)是项目的核心概念,为了实现某个功能/图像操作,需要借助多模型/多步骤操作,在 worflow 会把每个步骤视为一个节点,例如加载图像,通过连线的方式将节点间串联起来,一个节点的输出对应另一个节点的输入,最后,一个workflow 是由 N 个点 和 M 条线组成

视觉模型一般只针对于单一领域,不具有泛化能力,而在日常中我们修改图像的诉求一般较为复杂,若要实现需要多个模型介入,例如,实现 消除图片中的某个物体 功能,需要:1,需要 image captioning 模型 将 图像转坏为 txt;2,用分割模型将 image 中目标分割生成 mask;3,用 inpainting + diffusion模型将空白 mask 在进行填补,可能的话还需要再加一步,用detail 相关模型将生成图片再细化输出

因此,目前几乎每个 workflow 都会有多模型组成的痕迹,有的是纯cv 模型,有的可能 CV + LLM 相结合,也就是某种意义上的多模态

虽然 近几个月 text-to-video 也比较火,如runaway、kling、openai、pika等,开源的有 Stable Video Diffusion;但现有模型依旧还不成熟,并且对于个人开发者来说,玩耍这类模型所需GPU代价对个人开发者是难以承受的

而 继续开发这方面 Demo 的想法 ,也是在以上背景下又浮现出来;目前 ComfyUI 上手门槛不算很高,但对于一些电脑小白来说,除了面对最基础的Python环境外,还需要针对各种工作流安装对应所需model、插件,有时还会遇到一些插件所用 python库版本不兼容等疑难杂症

demo 目前方向就是为了缓解这个问题,将大部分比较通用,比较火的图片处理工作流作为功能继承在项目中,致力于一键式处理,免去不必要的额外操作

完善demo的周期预计会比较厂, 因为除了一些已有的工作流外,还需要针对特殊业务场景开发一些自定义插件或节点,除了一些基础CRUD外,还需要对 Diffusion模型的运行原理以及代码实现有所掌握

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小张Python1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值