4月科研心得-CSDN博客

本文链接：https://blog.csdn.net/interestingzhou/article/details/130233342

最近受到SAM的震撼以及一些优秀作品的问世，思考了一下当前优秀论文的特点，以及为以后自己的工作做一个方向

对大模型加小组件

tunable prompt

代表作：

[VPT]([2203.12119] Visual Prompt Tuning (arxiv.org))

insight：视觉中的可学习的prompt。图片token加入可学习的token,随着attention交互，学习这个token。VPT对于多个下游任务都是有帮助的，只需要为每个任务存储学习到的prompt和分类头，重新使用预训练的Transformer，从而显著降低存储成本。

CoOp

insight：对给定的数据，随机初始化文本（或者初始化为 xxxxxxxx ），并学习这些sudo words。

adapter

代表作：

AIM

insight：预训练好的图像模型已经展示出优越的性能，我们认为不需要再微调模型，而是加一些parameter efficient的adapter学学习即可对下游任务的适应

[T2I-Adapter](T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models)

insight: stablediffusion 生成能力好但是物体和物体的组合能力不佳。我们保存SD模型原有生成能力的前提下显式的注入一些条件控制这种组合信息。

zero convolution

代表作：

ControlNet

insight：利用复制的新的一样的train copy 去学习，然后和原来的网络进行残差连接。即可慢慢生成一个定制化的网络。

lightweight expert(controllable net)

代表作：

[Composer](Composer: Creative and Controllable Image Synthesis with Composable Conditions)

insight：用GLIDE进行多组条件的组合。生成多样性可控的结果

优化目标：可以写成和GLIDE相似的形式。这里 $c_2$ 可以是多种条件的组合
$\begin{align} \text{GLIDE}: \hat{\boldsymbol{\epsilon}}_{\theta}\left(\mathbf{x}_{t}, \mathbf{c}\right) &=\omega \boldsymbol{\epsilon}_{\theta}\left(\mathbf{x}_{t}, \mathbf{c}\right)+(1-\omega) \boldsymbol{\epsilon}_{\theta}\left(\mathbf{x}_{t}\right)\\ \text{Ours}: \hat{\boldsymbol{\epsilon}}_{\theta}\left(\mathbf{x}_{t}, \mathbf{c}\right) & = \omega \boldsymbol{\epsilon}_{\theta}\left(\mathbf{x}_{t}, \mathbf{c}_{2}\right)+(1-\omega) \boldsymbol{\epsilon}_{\theta}\left(\mathbf{x}_{t}, \mathbf{c}_{1}\right) \end{align}$