One Prompt One Story

oyzh_2005

已于 2025-03-12 10:19:52 修改

阅读量855

点赞数 22

分类专栏：论文阅读文章标签：计算机视觉

于 2025-03-12 10:18:38 首次发布

本文链接：https://blog.csdn.net/2301_79859331/article/details/146198078

版权

8 篇文章

订阅专栏

1p1s

Title: ONE-PROMPT-ONE-STORY: FREE-LUNCH CONSISTENT TEXT-TO-IMAGE GENERATION USING A SINGLE PROMPT
上次编辑: 2025年3月12日 10:14

Problem Setups

Context Consistent

Context Consistent In Image Genration

通过上述的分析，简单的对Prompt进行concat和增强不能保证生成图片准确反映信息，作者认为这是T2I模型无法准确对prompt embedding序列进行分割导致的，同时语义之间存在干扰

Singular Value Reweighting

由于上述的NPR思想有一定的作用，作者将现在的frame描述确定为 ${P^{exp}, P^{sup}}$ ，其中 ${P^{exp}}$ 代表对应frame的prompt， $p^{sup}$ 代表所有frame的加权，

$\begin{array} {ll}\mathcal{X}^{exp}= [\boldsymbol{c}^{P_j},\boldsymbol{c}^{EOI}] \\\mathcal{X}^{sup}= [\boldsymbol{c}^{P_1},\ldots,\boldsymbol{c}^{P_{j-1}},\boldsymbol{c}^{P_{j+1}},\ldots,\boldsymbol{c}^{P_N},\boldsymbol{c}^{EOT}]. \end{array}$
对上述式子进行SVD分解， $\mathcal{X}^{exp}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T,\mathrm{~where~}\boldsymbol{\Sigma}=diag(\sigma_0,\sigma_1,\cdots,\sigma_{n_j})$ 对其中的 $\hat{\sigma}=\beta e^{\alpha\sigma}*\sigma.$ 进行增强同时用类似的方式，对 $\mathcal{X}^{sup}$ 进行减弱 $\tilde{\sigma}=\beta^{\prime}e^{-\alpha^{\prime}\hat{\sigma}}*\hat{\sigma}.$

Identity-Preserving Cross-Attention

用concat的方式进行新KV矩阵的构造，其中新的KV图中的和 $\tilde{\mathcal{P}_{i}},i\in[1,\tilde{N}]$ 相关的token-feature设置为0，也就是新的KV-embedding仅含有原先的带有物体信息的prompt
将两种prompt进行concat实际上是对物体信息进行了增强