MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytellingvia # 论文阅读

最新推荐文章于 2024-07-08 18:48:12 发布

奔跑的汉堡包

最新推荐文章于 2024-07-08 18:48:12 发布

阅读量431

点赞数 6

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_29679623/article/details/138634376

版权

URL

https://arxiv.org/pdf/2312.10899

港科大 + 华南理工大的文章，要解决的任务是非典型比例的图片（比如长画卷、漫画书等）生成。利用文本、语义、位置等不同的控制方法，来生成想要的图片大小，以及精准控制每一部分的图片内容。

一些结果展示：

方法的 ppl 如下图，共分为三个部分：

第一部分是 gpt 的 prompt 生成。在这一步， gpt 会给出一段 story text，描述了整体的场景，以及场景内细分每一个子场景描述和主体。同时还通过 visual instruction tuning 的方式让 gpt 生成每个主体的 bbox 位置（这一步感觉可以直接用 incontext learning 方式生成）
第二部分是 latent 的处理。因为需要生成非典型 shape 的图片，但是传统的 SD 模型一般只能在特定比例和特定分辨率范围内效果比较良好。所以文章使用了滑窗的方式来保证不同比例的图片生成，同时可以保证每一个滑窗内图片的质量。
第三部分是 style control，作者使用了 input reference image 的方式控制生成图片的 style

训练的数据集包括三部分：

结果展示可以参考上文的图片

关注