拍张照片,输入文字指令,手机就开始自动修图?
这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。
把背景中的人移除
在桌子上添加披萨
最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLLM)可以自然地将图像视为输入,并提供视觉感知响应。另一方面,基于指令的编辑技术可以不依赖于详细描述或区域掩码,而是允许人类下达指令,直接表达如何编辑以及编辑图像的哪个方面。这种方法极具实用性,因为这种引导更符合人类的直觉。
基于上述技术的启发,苹果提出了 MGIE(MLLM-Guided Image Editing),将 MLLM 用于解决指令引导不足的问题。
-
论文标题:Guiding Instruction-based Image Editing via Multimodal Large Language Models
-
论文链接:https://openreview.net/pdf?id=S1RKWSyZ2Y
-
项目主页:https://mllm-ie.github.io/</