作者是在基于度量的学习的模型基础上,通过Cross-Modulation方法将每个抽象级别的support and query examples 整合,从而达到更好的预测表现。
方法
论文的核心方法是将Feature-wise Linear Modulation(FiLM)方法引入到度量学习中,关于FiLM的思想和具体实现可查阅原论文,这里就简单介绍下。
FiLM 将一种条件决定的面向特征的仿射变换(缩放平移)引入网络结构中,其仿射变换的参数由输入样本经过函数变换得到,如下图中一个视觉推理的例子。向GRU输入推理问题的自然语言,输出仿射变换的参数,然后作用到每个ResBlock中。相当于让GRU对CNN网络产生作用,并且这个作用是跟提出问题的自然语言信息有关,起到了类似“推理”的效果。
而作者的运用也比较简单,网络结构如下所示,作者根据support and query examples的中间信息作为输入得到仿射变换的参数,作用到卷积块上,相当于利用到中间的信息帮助预测。
实验
作者通过两组实验来证明方法的有效,一组是和同类方法在miniImageNet上精度的对比,发现确实的得到的改进,另一组是将仿射变换噪声不通过学习计算得到,而是作为随机的人工噪声输入,结果发现精度下降。两者的结合说明提出的Cross-Modulation方法确实起到了效果。