Generate Anything Anywhere in Any Scene #论文阅读

URL

https://arxiv.org/pdf/2306.17154

TD;DR

2023 年 6 月 Wisconsin 的文章。围绕 ip 保持做的扩展任务,核心目标是对指定 ip 可以生成任意大小的(指定 ip)、任意背景的图片,同时可以通过 bbox 控制物体位置和多物体生成。主页
在这里插入图片描述

标题中的:

  • anything = ip 保持
  • anywhere = 任意位置、任意大小
  • any scene = 任意背景

Model & Method

整体没有太多的方法创新,偏向于一个缝合怪的文章。ip 保持能力使用的是 dreambooth,位置控制的模型是 GLIGEN。

  • dreambooth 不赘述
  • GLIGEN 通过把位置、关键点等控制信息,通过一个额外的 attn 注入 SD。即下图的 g(ip 文本和控制信息,经过 mlp 得到)。gamma 是一个可学习的参数,作为一个 gate 开关来控制应该保留原模型信息的权重。TS 表示 token selection 操作,用来提取 visual token(剔除无用背景信息?)

在这里插入图片描述

当然,如果直接组合会出现如下图所示的问题,即生成的位置需要符合 dreambooth 训练数据的分布,如果出现在非训练数据的去他位置(或者其他比例)则会导致生成失败。

文章解释为 dreambooth 不仅学到了 ip 物体的语义信息,同样也会学物体的位置、大小等几何信息。所以在 dreambooth 推理的时候就会过拟合这部分学到的知识(不仅是 dreambooth,大部分需要 finetune 的方法比如 lora 都会有这个问题)
在这里插入图片描述
在这里插入图片描述

针对这个问题,作者给出的解法是做一些形状和位置的增广,包括:

  • 原图的随机 resize
  • 在一张灰色的画布上随机放置,只计算原图区域的 loss
    在这里插入图片描述

按照上面的思路训练完之后,又出现了一些额外的问题,如下图,包括:

  • 图像拼接问题
  • 多物体问题
  • 灰色背景问题
    在这里插入图片描述

作者认为问题 1 和问题 2 来源于训练时候只计算物体区域的 loss,而在 unet 中,随着深度逐渐增大,物体区域和物体边缘信息会发生融合。解法如下图。
思路就是加了 ip 对应的 rare token 作为非 bbox 区域内的 neg prompt、加了一些特定的 pos prompt(如 high quality、colorful image)
在这里插入图片描述

Dataset & Result

一些结果展示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Thoughts

  • 多物体的结果中没有太多的复杂交互
  • 文章里面的非物体区域采用单独的 neg prompt 生成策略可以留意一下。PS:分块 prompt 机制
  • 22
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值