〔更多精彩AI内容,尽在 「魔方AI空间」 ,引领AIGC科技时代〕
本文作者:猫先生
简 介
BrushEdit,一种新颖的基于修复的指令指导图像编辑范式,它利用多模态大模型 (MLLM) 和图像修复模型来实现自主、用户友好和交互式的自由格式指令编辑。
通过在代理-合作框架中集成 MLLM 和双分支图像修复模型来设计一个支持自由格式指令编辑的系统,以执行编辑类别分类、主要对象识别、掩码获取和编辑区域修复。
该框架有效地结合了 MLLM 和修复模型,在七个关键指标上取得了卓越的性能,包括掩码区域保留和编辑效果连贯性。
项目地址:https://github.com/TencentARC/BrushEdit
方法概述
BrushEdit,一种基于图像修复和指令引导的图像编辑框架。具体来说,
-
编辑分类: 使用预训练的多模态大语言模型(MLLM)解释用户的自由形式编辑指令,识别编辑类型(添加、删除、局部编辑等),并定位目标对象。
-
主要对象识别: 调用预训练的检测模型,根据目标对象生成相关的编辑掩码。
-
掩码获取和目标描述生成: 根据识别出的编辑类型和目标对象,生成编辑掩码和对应的目标图像描述。
-
图像修复: 使用双分支图像修复模型BrushNet,根据目标描述和编辑掩码进行图像修复。该模型通过将掩码图像特征注入预训练的扩散网络,增强语义一致性,并通过零卷积层连接冻结模型和可训练的BrushEdit,减少早期训练阶段的噪声。
BrushNet 采用了混合微调策略,使用随机和分割掩码进行训练,使得修复模型能够处理各种基于掩码的修复任务,而不受掩码类型的限制。
结果展示:
删除内容
添加内容
背景编辑
对象编辑
项实操部署
1、克隆仓库
git clone https://github.com/TencentARC/BrushEdit.git
2、安装基础环境
conda create -n brushedit python=3.10.6 -y
conda activate brushedit
python -m pip install --upgrade pip
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
# 使用以下命令安装 diffusers
pip install -e .
# 安装所需的软件包
pip install -r app/requirements.txt
3、下载 BrushEdit 的模型文件
sh app/down_load_brushedit.sh
|-- models
|-- base_model
|-- realisticVisionV60B1_v51VAE
|-- model_index.json
|-- vae
|-- ...
|-- dreamshaper_8
|-- ...
|-- epicrealism_naturalSinRC1VAE
|-- ...
|-- meinamix_meinaV11
|-- ...
|-- ...
|-- brushnetX
|-- config.json
|-- diffusion_pytorch_model.safetensors
|-- grounding_dino
|-- groundingdino_swint_ogc.pth
|-- sam
|-- sam_vit_h_4b8939.pth
|-- vlm
|-- llava-v1.6-mistral-7b-hf
|-- ...
|-- llava-v1.6-vicuna-13b-hf
|-- ...
|-- Qwen2-VL-7B-Instruct
|-- ...
|-- ...
提供五种基础扩散模型,包括:
Dreamshapre_8 是一种多功能模型,可以生成令人印象深刻的肖像和风景图像。
Epicrealism_naturalSinRC1VAE 是一种擅长生成肖像的现实风格模型。
HenmixReal_v5c 是一个专门生成逼真女性图像的模型。
Meinamix_meinaV11 是一种擅长生成动画样式图像的模型。
RealisticVisionV60B1_v51VAE 是一种高度通用的现实主义风格模型。
4、使用脚本运行演示:
sh app/run_app.sh
推荐阅读
技术专栏: 多模态大模型最新技术解读专栏 | AI视频最新技术解读专栏 | 大模型基础入门系列专栏 | 视频内容理解技术专栏 | 从零走向AGI系列
技术资讯: 魔方AI新视界
技术综述: 一文掌握Video Diffusion Model视频扩散模型 | YOLO系列的十年全面综述 | 人体视频生成技术:挑战、方法和见解