FiLM: Visual Reasoning with a General Conditioning Layer
-
概要:提出了一种特征层面的线性调节方式,在视觉推理任务中有很好的效果
-
用处:可以用于特征合并,例如处理模型的多输入问题
-
实现
感觉就是对其中一个特征进行了放射变换,然后相加(直接相加感觉会损失掉一部分信息,因此在一些文章中发现大家有时候会换成concate)。直观上理解是将其中一个特征通过特征的重组映射到与另一个特征相同的空间,在这个空间中二者可以相加。 -
论文中的网络(用于QA)
-
实例
最近在读一篇video caption的文章中看到使用上述机制(feature-wise linear modulation)进行特征的合并
h V , h S h_V,h_S hV,hS是两种不同模态下的特征(分别来自视觉和传感器) -
总结
一种在视觉推理任务中比较好用的特征合并手段:feature-wise linear modulation