D-Edit:支持文本、图像和掩码编辑等多功能的图像编辑框架

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. D-Edit 是一个基于扩散模型的多功能图像编辑框架,支持文本、图像和掩码编辑。
  2. 它通过解耦控制实现对图像中特定项目的精确编辑,适用于多种应用场景。
  3. D-Edit 提供了灵活且多样化的图像编辑能力,支持从细微调整到完全替换的各种编辑效果。

正文(附运行示例)

D-Edit 是什么

在这里插入图片描述

D-Edit 是一个基于扩散模型的多功能图像编辑框架,支持文本、图像和掩码编辑。它通过解耦控制实现对图像中特定项目的精确编辑,适用于多种应用场景,如数字艺术创作、照片编辑、广告和营销等。

D-Edit 的主要功能

  1. 文本引导编辑:允许用户选择图像中的对象并根据文本描述进行替换或细化。
  2. 图像引导编辑:允许用户从参考图像中选择对象并将其移植到另一张图像中,同时保留其身份。
  3. 掩码编辑:通过直接编辑对象的掩码来操作对象,支持移动、调整大小、重塑和细化对象。
  4. 项目移除:允许用户通过删除掩码对象关联来从图像中移除对象。

D-Edit 的技术原理

  1. 项目提示交互:将图像分解为多个项目,并为每个项目分配一个独特的提示。
  2. 解耦的交叉注意力层:引入解耦的交叉注意力机制,支持模型将每个项目的控制流与对应的提示分开处理。
  3. 两步优化过程:提示注入和模型微调,建立项目与提示之间的关联。

如何运行 D-Edit

1. 分割

将待编辑的图像放入指定文件夹,并重命名为 “img.png” 或 “img.jpg”,然后运行分割模型:

sh ./scripts/run_segment.sh

或者使用 GroundedSAM 进行文本提示检测:

sh ./scripts/run_segmentSAM.sh

2. 模型微调

微调扩散模型的 UNet 交叉注意力层:

sh ./scripts/sdxl/run_ft_sdxl_1024.sh

或者使用 lora 微调完整的 UNet:

sh ./scripts/sdxl/run_ft_sdxl_1024_fulllora.sh

3. 编辑

3.1 重建

检查原始图像是否可以重建:

sh ./scripts/sdxl/run_recon.sh
3.2 文本引导编辑

根据文本提示替换目标项目:

sh ./scripts/sdxl/run_text.sh
3.3 图像引导编辑

将参考图像中的项目替换到目标图像中:

sh ./scripts/sdxl/run_image.sh
3.4 掩码编辑

通过编辑掩码来移动、调整大小或重塑目标项目:

sh ./scripts/sdxl/run_move_resize.sh

资源

  • 关注并回复公众号【60】或【D-Edit】获取相关项目资源。

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值