1p1s
Title: ONE-PROMPT-ONE-STORY: FREE-LUNCH CONSISTENT TEXT-TO-IMAGE GENERATION USING A SINGLE PROMPT
上次编辑: 2025年3月12日 10:14
Method
Context Consistent
Problem Setups
- 原先的T2I问生成使用一系列的Prompt,但是这样的分离生成的pipeline忽略了自然语言中的特质—内容之间的一致性
- 对于原先的方法每一帧对应着独立的提示 [ P 0 , P i ] [P_0, P_i] [P0,Pi],而作者提出的方法为 [ P 0 , P 1 , P 2 . . . P n ] [P_0, P_1, P_2... P_n] [P0,P1,P2...Pn]
Context Consistent
-
将上述的独立提示词和整体提示词经过clip,通过t-SNE的方式进行可视化
-
发现多图像设置的的在表达空间之中有更为广泛的分布,效果较弱
Context Consistent In Image Genration
- 在上面的基础上,提出了Naive Prompt Reweighting(NPR),来增强原先Prompt的功能
- 然后使用DINO+t-SNE进行可视化,可以看出增加了NPR之后,效果显著提升
One Prompt One Story
通过上述的分析,简单的对Prompt进行concat和增强不能保证生成图片准确反映信息,作者认为这是T2I模型无法准确对prompt embedding序列进行分割导致的,同时语义之间存在干扰
Singular Value Reweighting
-
由于上述的NPR思想有一定的作用,作者将现在的frame描述确定为 P e x p , P s u p {P^{exp}, P^{sup}} Pexp,Psup,其中 P e x p {P^{exp}} Pexp代表对应frame的prompt, p s u p p^{sup} psup代表所有frame的加权,
X e x p = [ c P j , c E O I ] X s u p = [ c P 1 , … , c P j − 1 , c P j + 1 , … , c P N , c E O T ] . \begin{array} {ll}\mathcal{X}^{exp}= [\boldsymbol{c}^{P_j},\boldsymbol{c}^{EOI}] \\\mathcal{X}^{sup}= [\boldsymbol{c}^{P_1},\ldots,\boldsymbol{c}^{P_{j-1}},\boldsymbol{c}^{P_{j+1}},\ldots,\boldsymbol{c}^{P_N},\boldsymbol{c}^{EOT}]. \end{array} Xexp=[cPj,cEOI]Xsup=[cP1,…,cPj−1,cPj+1,…,cPN,cEOT].
-
对上述式子进行SVD分解, X e x p = U Σ V T , w h e r e Σ = d i a g ( σ 0 , σ 1 , ⋯ , σ n j ) \mathcal{X}^{exp}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T,\mathrm{~where~}\boldsymbol{\Sigma}=diag(\sigma_0,\sigma_1,\cdots,\sigma_{n_j}) Xexp=UΣVT, where Σ=diag(σ0,σ1,⋯,σnj)对其中的 σ ^ = β e α σ ∗ σ . \hat{\sigma}=\beta e^{\alpha\sigma}*\sigma. σ^=βeασ∗σ.进行增强 同时用类似的方式,对 X s u p \mathcal{X}^{sup} Xsup进行减弱 σ ~ = β ′ e − α ′ σ ^ ∗ σ ^ . \tilde{\sigma}=\beta^{\prime}e^{-\alpha^{\prime}\hat{\sigma}}*\hat{\sigma}. σ~=β′e−α′σ^∗σ^.
Identity-Preserving Cross-Attention
- 用concat的方式进行新KV矩阵的构造,其中新的KV图中的和 P i ~ , i ∈ [ 1 , N ~ ] \tilde{\mathcal{P}_{i}},i\in[1,\tilde{N}] Pi~,i∈[1,N~]相关的token-feature设置为0,也就是新的KV-embedding仅含有原先的带有物体信息的prompt
- 将两种prompt进行concat实际上是对物体信息进行了增强