Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation论文阅读
这是一篇在Text-Guided Image Manipulation领域关于轻量模型的论文,github代码地址(还未公开):https://github.com/mrlibw/Lightweight-Manipulation
创新点:
提出了轻量级网络结构,可以在手机等移动设备上运行,并且效果相比其他模型来说也很不错。
模型结构
作者首先尝试了对ManiGAN进行优化,通过减少层数和参数来得到一个轻量模型,但是生成图片的质量却大大下降。经过实验,作者提出了下图这种网络结构。
我们先从论文的主要创新点——word-level discriminator开始介绍。
首先,我们定义最基本的数学符号:输入图片I,文本S,修改后图片I’。
Word Labelling
为了完整利用文本S里的word信息,作者使用了一个part-of-speech tagging,将S里的每个word按照名词、形容词、动词等进行标注。为了简化模型,作者将名词和形容词(这两种词性包含最多意思)记为1,其余