D-Edit：支持文本、图像和掩码编辑等多功能的图像编辑框架

蚝油菜花

于 2024-11-01 13:08:01 发布

阅读量584

点赞数 8

分类专栏：每日 AI 项目与应用实例文章标签：人工智能图像处理开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19841021/article/details/143429291

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

D-Edit 是一个基于扩散模型的多功能图像编辑框架，支持文本、图像和掩码编辑。
它通过解耦控制实现对图像中特定项目的精确编辑，适用于多种应用场景。
D-Edit 提供了灵活且多样化的图像编辑能力，支持从细微调整到完全替换的各种编辑效果。

正文（附运行示例）

D-Edit 是什么

在这里插入图片描述

D-Edit 是一个基于扩散模型的多功能图像编辑框架，支持文本、图像和掩码编辑。它通过解耦控制实现对图像中特定项目的精确编辑，适用于多种应用场景，如数字艺术创作、照片编辑、广告和营销等。

D-Edit 的主要功能

文本引导编辑：允许用户选择图像中的对象并根据文本描述进行替换或细化。
图像引导编辑：允许用户从参考图像中选择对象并将其移植到另一张图像中，同时保留其身份。
掩码编辑：通过直接编辑对象的掩码来操作对象，支持移动、调整大小、重塑和细化对象。
项目移除：允许用户通过删除掩码对象关联来从图像中移除对象。

D-Edit 的技术原理

项目提示交互：将图像分解为多个项目，并为每个项目分配一个独特的提示。
解耦的交叉注意力层：引入解耦的交叉注意力机制，支持模型将每个项目的控制流与对应的提示分开处理。
两步优化过程：提示注入和模型微调，建立项目与提示之间的关联。

如何运行 D-Edit

1. 分割

将待编辑的图像放入指定文件夹，并重命名为 “img.png” 或 “img.jpg”，然后运行分割模型：

sh ./scripts/run_segment.sh

或者使用 GroundedSAM 进行文本提示检测：

sh ./scripts/run_segmentSAM.sh

2. 模型微调

微调扩散模型的 UNet 交叉注意力层：

sh ./scripts/sdxl/run_ft_sdxl_1024.sh

或者使用 lora 微调完整的 UNet：

sh ./scripts/sdxl/run_ft_sdxl_1024_fulllora.sh

3. 编辑

3.1 重建

检查原始图像是否可以重建：

sh ./scripts/sdxl/run_recon.sh

3.2 文本引导编辑

根据文本提示替换目标项目：

sh ./scripts/sdxl/run_text.sh

3.3 图像引导编辑

将参考图像中的项目替换到目标图像中：

sh ./scripts/sdxl/run_image.sh

3.4 掩码编辑

通过编辑掩码来移动、调整大小或重塑目标项目：

sh ./scripts/sdxl/run_move_resize.sh

资源

关注并回复公众号【60】或【D-Edit】获取相关项目资源。

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。