T2I
文章平均质量分 93
Text2Image
m0_55217431
这个作者很懒,什么都没留下…
展开
-
(T2I)
1.Generative Adversarial Text to Image Synthesis介绍:《Generative Adversarial Text to Image Synthesis》阅读笔记 - 知乎paper:https://arxiv.org/abs/1605.05396code:https://github.com/reedscot/icml20162.Learning What and Where to Draw(2016)GAWWN:Learning .原创 2021-10-20 09:27:40 · 953 阅读 · 0 评论 -
(T2I) VILT
该架构极为简单:它采用展平后的N*N个图像 patch 作为输入,他们直接相互独立,通过线性层对其进行映射为d维嵌入特征,然后采用两个残差操作对投影特征进行更新:(i)一个简单的线性 patch 交互层,独立用于所有通道;(ii)带有单一隐藏层的 MLP,独立用于所有 patch。在网络的末端,这些 patch 被平均池化,进而馈入线性分类器。然后将输出的d维嵌入特征进行平均得到d维图像表达,最后将图像表达送入线性分类层预测图像对应标签,训练使用交叉熵损失该架构是受 ViT 的启发,但更加简单:不采用.原创 2021-10-12 16:38:31 · 2050 阅读 · 0 评论