论文精读InstructPix2Pix: Learning to Follow Image Editing Instructions

InstructPix2Pix: Learning to Follow Image Editing Instructions

我们提出了一种根据人类指令编辑图像的方法:给定输入图像和告诉模型该做什么的书面指令,我们的模型遵循这些指令来编辑图像。

为了获得这个问题的训练数据,我们结合了两个大型预训练模型的知识——一个语言模型(GPT-3)和一个文本到图像模型(Stable Diffusion)——来生成一个大型图像编辑示例数据集。

我们的条件扩散模型InstructPix2Pix是在我们生成的数据上进行训练的,并在推理时推广到真实图像和用户编写的指令。由于它在向前传递中执行编辑,并且不需要每个示例的微调或反转,因此我们的模型可以在几秒钟内快速编辑图像。我们为输入图像和书面说明的不同集合展示了令人信服的编辑结果

模型结合gpt3和SD生成了一个用于图像编辑的数据集
作者使用生成的数据集训练了一个条件扩散模型来实现文本编辑图像

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

数据生成

作者使用了700条人工标注的文本编辑指令三元组微调GPT-3,之后使用微调过的GPT-3生成大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值