论文精读InstructPix2Pix: Learning to Follow Image Editing Instructions

最新推荐文章于 2025-04-11 12:26:14 发布

@Major Tom

最新推荐文章于 2025-04-11 12:26:14 发布

阅读量749

点赞数 5

文章标签： AIGC

本文链接：https://blog.csdn.net/m0_52474839/article/details/138231960

版权

InstructPix2Pix: Learning to Follow Image Editing Instructions

我们提出了一种根据人类指令编辑图像的方法:给定输入图像和告诉模型该做什么的书面指令，我们的模型遵循这些指令来编辑图像。

为了获得这个问题的训练数据，我们结合了两个大型预训练模型的知识——一个语言模型(GPT-3)和一个文本到图像模型(Stable Diffusion)——来生成一个大型图像编辑示例数据集。

我们的条件扩散模型InstructPix2Pix是在我们生成的数据上进行训练的，并在推理时推广到真实图像和用户编写的指令。由于它在向前传递中执行编辑，并且不需要每个示例的微调或反转，因此我们的模型可以在几秒钟内快速编辑图像。我们为输入图像和书面说明的不同集合展示了令人信服的编辑结果

模型结合gpt3和SD生成了一个用于图像编辑的数据集
作者使用生成的数据集训练了一个条件扩散模型来实现文本编辑图像

在这里插入图片描述

数据生成

作者使用了700条人工标注的文本编辑指令三元组微调GPT-3，之后使用微调过的GPT-3生成大

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

@Major Tom

关注关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

多模态中的指令控制（InstructPix2Pix，SayCan）

nakaizura

12-10

4464

整理一下关于多模态中的instruction tuning。图像的语言指令生成。目的是遵循人工指令去编辑图像，即给定输入图像和一个如何编辑它的文本指令，模型尝试遵循这些指令来编辑图像。这份论文与现有基于文本的图像编辑工作们最大的不同在于

【论文阅读】InstructPix2Pix: Learning to Follow Image Editing Instructions

weixin_44329069的博客

11-14

1281

给定一张输入图像和一条书面指令，模型按照指令对图像进行编辑。由于为此任务获取大规模训练数据非常困难，我们提出了一种生成配对数据集的方法语言模型（GPT-3）；文本到图像模型（Stable Diffusion）。这两个模型捕捉了关于语言和图像的互补知识，可以组合起来生成配对训练数据，用于同时涉及这两种模态的任务。我们利用生成的配对数据训练了一个条件扩散模型，该模型给定输入图像和文本指令后，生成编辑后的图像。

参与评论您还未登录，请先登录后发表或查看评论

深度解析：InstructPix2Pix与主流图像编辑模型的对比

gitblog_02837的博客

12-16

992

深度解析：InstructPix2Pix与主流图像编辑模型的对比 instruct-pix2pix 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/instruct-pix2pix...

论文阅读三：InstructPix2Pix: Learning to Follow Image Editing Instructions

qq_58200356的博客

03-25

1458

本文讲述的是给定一张待编辑图像和指令对图像进行编辑，模型使用的训练数据集是通过语言模型（GPT-3）和文生图模型（SD）生成的，但在使用中依旧可以用于真实图片的编辑。

InstructPix2Pix Learning to Follow Image Editing Instructions

weixin_44966641的博客

07-10

926

InstructPix2Pix 是扩散模型指令编辑方向比较经典的工作。核心还是在监督数据的构建，灵活地运用了大语言模型强大的泛化能力和 Prompt2Prompt 保持两次生图布局构图一直的能力。

（2023|CVPR，GPT3 微调，SD，P2P，双条件 CFG）InstructPix2Pix：学习遵循图像编辑说明

qq_44681809的博客

01-22

1501

本文提出根据指令编辑图像：给定输入图像和指令，告诉模型该如何操作，模型按照指令编辑图像。为获得训练数据，结合了两大型预训练模型：一个是语言模型，另一个是文本到图像模型，生成了一个大型的图像编辑示例数据集。

InstructPix2Pix: Learning to Follow Image Editing Instructions

最新发布

小毛激励我好好学习的博客

04-11

902

SDEdit虽然可以大致保持剩余内容的大致不变以及风格的不变，但其很难做到identity的保持以及当较大变化时对各个物体的隔离，并且它需要对于编辑后图像的完整描述，而不是一个编辑指令。基于以上700条数据，对GPT-3进行了1 epoch的微调，由于GPT-3本身具备丰富的知识和较强的泛化性，微调的模型可以生成具有创造力同时合理的编辑指令和文本描述。在2.1.1小节中，将阐述微调GPT-3用于生成一系列文本的过程：给定一个图像的文本描述，生成一个进行图像编辑的文本指令，以及一个编辑后图像的文本描述。

InstructPix2Pix（CVPR2023）-图像编辑论文解读

持续关注并分享目标检测、数据生成、视频驱动、跨模态、分割、关键点等领域前沿技术

09-06

4842

InstructPix2Pix，CVPR2023，加利福尼亚大学，伯克利分校出品，通过引导语即可完成图像编辑

InstructPix2Pix: 随口修图

xiexiecn的专栏

12-20

1309

'InstructPix2Pix Learning to Follow Image Editing Instructions是一篇非常有意思的文章，有意思说的是效果，要做出论文的效果过程并没那么顺利。首先需要微调GPT3模型，这个花钱花力气，在之前的文章里已经提过，可以参考finetune一个GPT3。在此基础上稍微修改一下prompt2prompt的代码获取相关样本，然后再按论文的方法修改网络和初始化权重，fine tune一下stable diffusion。代码放在:xuduo35/Instru

浅析扩散模型与图像生成【应用篇】(十六)——InstructPix2pix

深视

04-27

1313

该文提出一种通过文字指令直接编辑和修改图像的方法。无需给出对图像的描述，只要给出修改的指令，就可以对输入图像进行编辑和修改，并且能够保留图像原本的内容不被破坏。编辑效果和泛化能力可以说是非常炸裂了。

深度学习图像处理新篇章：InstructPix2Pix实战指南

gitblog_02771的博客

12-26

1188

深度学习图像处理新篇章：InstructPix2Pix实战指南 instruct-pix2pix 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/instruct-pix2pix ...

InstructPix2Pix: 动动嘴皮子，超越PS

华为云官方博客

03-16

1954

InstructPix2Pix提出了一种使用文本编辑图像的方法：给定输入图像和编辑指令，告诉模型要做什么，模型将遵循这些指令来编辑图像。

instruct-pix2pix-main代码

qq_46095076的博客

04-20

486

其第一个元素是程序本身，随后才依次是外部给予的参数。∗把函数test_args()接受到的多个参数’name’,‘age’,‘address’,‘sex’，打包成了元组(‘name’,‘age’,‘address’,‘sex’)，赋值给了形参args。在test(1,3,5,7,c=‘2’,d=4)中，函数里参数对应的数值为：a=1,*args表示剩下的没有名称的参数，**kwargs表示剩余的键值对。：在 usage 说明中的参数名称，对于必选参数默认就是参数名称，对于可选参数默认是全大写的参数名称.

InstructPix2Pix：指挥机器修改图像

ZILLIZ

02-28

1099

InstructPix2Pix 教会机器按指令编辑图像

InstructPix2Pix 项目使用教程

gitblog_01065的博客

10-11

1186

InstructPix2Pix 项目使用教程 instruct-pix2pix 项目地址: https://gitcode.com/gh_mirrors/in/instruct-pix2pix ...

UC伯克利提出AIGC图像编辑新利器InstructPix2Pix，AI模型P图更加精细

TechBeat人工智能社区博客

12-17

1475

一种可以完全根据人类指令来对图像进行编辑的模型

Stable Diffusion WebUI安装instruct-pix2pix插件

培根芝士的专栏

03-05

3440

instruct-pix2pix作者团队提出了一种通过人类自然语言指令编辑图像的方法。他们的模型能够接受一张图像和相应的文字指令(也就是prompt)，根据指令来编辑图像。作者团队使用两个预训练模型（一个是语言模型GPT-3, 另一个是文本到图像模型Stable Diffusion) 生成大量编辑图像的样例数据,然后基于这些数据训练出InstructPix2Pix模型，能够在推理过程中适用于真实图像和用户提供的指令。

InstructPix2Pix: 一种无需微调新的快速图像编辑方法

专注计算机视觉全栈知识分享

03-23

624

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！欢迎添加小编微信号:cv_huber，一起探讨更多有趣的话题！

使用 InstructPix2Pix 对 Stable Diffusion 进行指令微调

m0_62396648的博客

06-21

466

通过本文，我们介绍了我们对“指令微调” Stable Diffusion 的一些探索。虽然预训练的 InstructPix2Pix 擅长领会执行一般的图像编辑指令，但当出现更专门的指令时，它可能就没法用了。为了缓解这种情况，我们讨论了如何准备数据集以进一步微调 InstructPix2Pix，同时我们展示了我们的结果。如上所述，我们的结果仍然很初步。但我们希望为研究类似问题的研究人员提供一个基础，并激励他们进一步对本领域的开放性问题进行探索。