Transformer做文本生成图像的调查研究笔记

中杯可乐多加冰

已于 2022-06-08 08:03:41 修改

阅读量5.4k

点赞数

分类专栏：文本生成图像 text-to-image 笔记文章标签： transformer T2I 文本生成图像 CNN CV

于 2021-11-29 16:24:47 首次发布

本文链接：https://blog.csdn.net/air__Heaven/article/details/121612984

版权

文本生成图像 text-to-image 同时被 2 个专栏收录

64 篇文章 437 订阅

订阅专栏

笔记

53 篇文章 17 订阅

订阅专栏

1、目前Transformer运用在文本生成图像上有3种
1）只在文本编码器上面运用，不改变GAN中生成图像的结构。 如：使用BERT处理文本编码过程，输出向量传入GAN中。
2）保存GAN的模型，仅仅替换他生成图像时用的卷积和池化过程，VitGAN（Vit：Visual Transformer）。
3）不保留GAN的结构，直接全用transformer做。

2、Transformer的计算效率问题：本来transformer的结构参数就是以百万为单位，基本都是亿级别的参数，放到图像生成方面训练难度会很大，硬件要求高。

3、Transformer的模型问题：Transformer是从NLP起源的模型，现有的Visual Transformer都还是将NLP中Transformer的结构套到视觉任务做了一些初步探索，目前CV领域还是直接套用NLP中的Transformer结构，并未对CV数据做专门的设计，未来针对CV的特性设计更适配视觉特性的Transformer可能会带来更好的性能提升。

4、CNN与Visual Transformer ：CNN是通过不断地堆积卷积层来完成对图像从局部信息到全局信息的提取，不断堆积的卷积层慢慢地扩大了感受野直至覆盖整个图像；但是transformer并不假定从局部信息开始，而且一开始就可以拿到全局信息，学习难度更大一些，但transformer学习长依赖的能力更强，另外从ViT的分析来看，前面的layers的“感受野”（论文里是mean attention distance）虽然迥异但总体较小，后面的layers的“感受野“越来越大，这说明ViT也是学习到了和CNN相同的范式。没有“受限”的transformer一旦完成好学习，势必会发挥自己这种优势。CNN大多数是金字塔结构的；原始Transformer或者ViT都是柱状结构的。