One Prompt One Story

1p1s

Title: ONE-PROMPT-ONE-STORY: FREE-LUNCH CONSISTENT TEXT-TO-IMAGE GENERATION USING A SINGLE PROMPT
上次编辑: 2025年3月12日 10:14

Method

Context Consistent

Problem Setups

  1. 原先的T2I问生成使用一系列的Prompt,但是这样的分离生成的pipeline忽略了自然语言中的特质—内容之间的一致性
  2. 对于原先的方法每一帧对应着独立的提示 [ P 0 , P i ] [P_0, P_i] [P0,Pi],而作者提出的方法为 [ P 0 , P 1 , P 2 . . . P n ] [P_0, P_1, P_2... P_n] [P0,P1,P2...Pn]

Context Consistent

  1. 将上述的独立提示词和整体提示词经过clip,通过t-SNE的方式进行可视化

  2. 发现多图像设置的的在表达空间之中有更为广泛的分布,效果较弱

    https://im.gurl.eu.org/file/BQACAgEAAxkDAAI2nWfQ7qAWXt5YvvprVmB3EASBxXclAALeBAAC7aqIRvUurIyWP95jNgQ.png

Context Consistent In Image Genration

https://im.gurl.eu.org/file/BQACAgEAAxkDAAI2nWfQ7qAWXt5YvvprVmB3EASBxXclAALeBAAC7aqIRvUurIyWP95jNgQ.png

  1. 在上面的基础上,提出了Naive Prompt Reweighting(NPR),来增强原先Prompt的功能
  2. 然后使用DINO+t-SNE进行可视化,可以看出增加了NPR之后,效果显著提升

One Prompt One Story

https://im.gurl.eu.org/file/BQACAgEAAxkDAAI2nWfQ7qAWXt5YvvprVmB3EASBxXclAALeBAAC7aqIRvUurIyWP95jNgQ.png

通过上述的分析,简单的对Prompt进行concat和增强不能保证生成图片准确反映信息,作者认为这是T2I模型无法准确对prompt embedding序列进行分割导致的,同时语义之间存在干扰

Singular Value Reweighting

  1. 由于上述的NPR思想有一定的作用,作者将现在的frame描述确定为 P e x p , P s u p {P^{exp}, P^{sup}} Pexp,Psup,其中 P e x p {P^{exp}} Pexp代表对应frame的prompt, p s u p p^{sup} psup代表所有frame的加权,

    X e x p = [ c P j , c E O I ] X s u p = [ c P 1 , … , c P j − 1 , c P j + 1 , … , c P N , c E O T ] . \begin{array} {ll}\mathcal{X}^{exp}= [\boldsymbol{c}^{P_j},\boldsymbol{c}^{EOI}] \\\mathcal{X}^{sup}= [\boldsymbol{c}^{P_1},\ldots,\boldsymbol{c}^{P_{j-1}},\boldsymbol{c}^{P_{j+1}},\ldots,\boldsymbol{c}^{P_N},\boldsymbol{c}^{EOT}]. \end{array} Xexp=[cPj,cEOI]Xsup=[cP1,,cPj1,cPj+1,,cPN,cEOT].

  2. 对上述式子进行SVD分解, X e x p = U Σ V T ,   w h e r e   Σ = d i a g ( σ 0 , σ 1 , ⋯   , σ n j ) \mathcal{X}^{exp}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T,\mathrm{~where~}\boldsymbol{\Sigma}=diag(\sigma_0,\sigma_1,\cdots,\sigma_{n_j}) Xexp=UΣVT, where Σ=diag(σ0,σ1,,σnj)对其中的 σ ^ = β e α σ ∗ σ . \hat{\sigma}=\beta e^{\alpha\sigma}*\sigma. σ^=βeασσ.进行增强 同时用类似的方式,对 X s u p \mathcal{X}^{sup} Xsup进行减弱 σ ~ = β ′ e − α ′ σ ^ ∗ σ ^ . \tilde{\sigma}=\beta^{\prime}e^{-\alpha^{\prime}\hat{\sigma}}*\hat{\sigma}. σ~=βeασ^σ^.

Identity-Preserving Cross-Attention

  1. 用concat的方式进行新KV矩阵的构造,其中新的KV图中的和 P i ~ , i ∈ [ 1 , N ~ ] \tilde{\mathcal{P}_{i}},i\in[1,\tilde{N}] Pi~,i[1,N~]相关的token-feature设置为0,也就是新的KV-embedding仅含有原先的带有物体信息的prompt
  2. 将两种prompt进行concat实际上是对物体信息进行了增强
### 1Prompt1Story 的概念 1Prompt1Story 是由南开大学提出的一种方法,旨在通过单一提示(prompt)生成连贯且一致的文本到图像内容[^2]。这种方法的核心在于设计一种特殊的 prompt 结构,使得即使不经过额外训练,也能让模型理解输入的要求,并生成高质量的结果。 具体来说,该方法利用预训练的语言和视觉模型,结合精心设计的 prompt 来引导模型完成特定的任务。其主要特点是无需微调模型参数即可实现高效的跨模态生成任务。 --- ### 如何使用 1Prompt1Story? 要使用 1Prompt1Story 方法,通常需要遵循以下原则: #### 设计 Prompt 根据已有的研究,一个完整的 Prompt 应当包含指令、背景信息以及具体的输出需求[^1]。例如,在生成故事相关的图像时,可以这样构建 Prompt- **指令部分**:指定目标,比如“生成一幅描述场景的画面”。 - **输入数据**:提供必要的上下文或者主题,如“在一个宁静的森林里,阳光透过树叶洒下斑驳的光影”。 - **背景**:补充细节以帮助模型更好地理解语境,“这是一幅适合儿童绘本风格的艺术作品”。 - **输出要求**:明确期望得到的内容形式,“请返回一张高清图片”。 这种结构化的 Prompt 不仅能提高生成质量,还能增强结果的一致性和可控性[^3]。 #### 工具支持 为了方便用户操作,项目还提供了在线演示页面,访问地址为 [https://byliutao.github.io/1Prompt1Story.github.io/](https://byliutao.github.io/1Prompt1Story.github.io/) 。在这里可以直接尝试不同的 Prompts 并观察对应的生成效果。 此外,如果希望进一步优化 Prompt 表现,则可考虑引入 Naive Prompt Reweighting (NPR) 技术。此技术通过对原始 Prompt 进行权重调整来改善最终输出的质量。 --- ### 示例代码展示 NPR 增强后的 Prompt 效果对比 以下是基于 Python 实现的一个简单例子,用于说明如何应用 NPR 改善 Prompt 性能: ```python import numpy as np def naive_prompt_reweighting(original_weights, alpha=0.5): """ 对原权重进行重新分配 """ adjusted_weights = original_weights * (1 + alpha) normalized_weights = adjusted_weights / sum(adjusted_weights) return normalized_weights # 初始权重分布 original_weights = np.array([0.2, 0.3, 0.5]) # 经过 NPR 处理后的权重 new_weights = naive_prompt_reweighting(original_weights) print(f"Original Weights: {original_weights}") print(f"After Applying NPR: {new_weights}") ``` 运行上述脚本后可以看到,新的权重更加突出某些重要特征,从而间接提升了生成结果的表现力。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值