MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytellingvia # 论文阅读

URL

https://arxiv.org/pdf/2312.10899

TD;DR

港科大 + 华南理工大的文章,要解决的任务是非典型比例的图片(比如长画卷、漫画书等)生成。利用文本、语义、位置等不同的控制方法,来生成想要的图片大小,以及精准控制每一部分的图片内容。

一些结果展示:

  • 浮城旁,英雄遇瀑布美人
    在这里插入图片描述

  • 城市里,警方遇到了怪兽,蜘蛛侠前来迎战
    在这里插入图片描述

  • 在未来的异世界,一名战士踏上了他的旅程
    在这里插入图片描述

Model & Method

方法的 ppl 如下图,共分为三个部分:

  1. 第一部分是 gpt 的 prompt 生成。在这一步, gpt 会给出一段 story text,描述了整体的场景,以及场景内细分每一个子场景描述和主体。同时还通过 visual instruction tuning 的方式让 gpt 生成每个主体的 bbox 位置(这一步感觉可以直接用 incontext learning 方式生成)
  2. 第二部分是 latent 的处理。因为需要生成非典型 shape 的图片,但是传统的 SD 模型一般只能在特定比例和特定分辨率范围内效果比较良好。所以文章使用了滑窗的方式来保证不同比例的图片生成,同时可以保证每一个滑窗内图片的质量。
  3. 第三部分是 style control,作者使用了 input reference image 的方式控制生成图片的 style
    在这里插入图片描述

Dataset & Results

训练的数据集包括三部分:

  • 中国古风山水画,来自故宫博物院官网
  • 漫画数据,来自 eBDtheque
  • 电影全景数据,来自 Movie Scripts Corpus
    在这里插入图片描述

结果展示可以参考上文的图片

Thought

  • 对于不同的题材和风格,需要更换 gpt 的输入 prompt。应该是 gpt 没有办法做到通用识别全品类的 story、漫画等文本,并不是很优的方法。
  • 滑窗导致了图片生成明显的分块现象(特别是一整张画卷的情况)
  • 整体来说值得细读,特别是滑窗也许可以支持业务分镜
  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值