MGIE(MLLM-Guided Image Editing)

苹果开源的MLLM-GuidedImageEditing(MGIE)利用多模态大模型进行图片编辑,通过人类指令进行背景移除、对象添加等操作。它通过简洁指令和视觉引导改进了图像编辑的精度和一致性,预示着生成式AI在苹果产品中的潜在应用.

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

拍张照片,输入文字指令,手机就开始自动修图?

这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。

把背景中的人移除

在桌子上添加披萨

最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLLM)可以自然地将图像视为输入,并提供视觉感知响应。另一方面,基于指令的编辑技术可以不依赖于详细描述或区域掩码,而是允许人类下达指令,直接表达如何编辑以及编辑图像的哪个方面。这种方法极具实用性,因为这种引导更符合人类的直觉。

基于上述技术的启发,苹果提出了 MGIE(MLLM-Guided Image Editing),将 MLLM 用于解决指令引导不足的问题。

  • 论文标题:Guiding Instruction-based Image Editing via Multimodal Large Language Models

  • 论文链接:https://openreview.net/pdf?id=S1RKWSyZ2Y

  • 项目主页:https://mllm-ie.github.io/</

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值