论文阅读笔记《Learning to remember rare events》

最新推荐文章于 2023-01-04 15:50:00 发布

深视

最新推荐文章于 2023-01-04 15:50:00 发布

阅读量1.2k

点赞数 2

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习小样本学习终生学习记忆模块

本文链接：https://blog.csdn.net/qq_36104364/article/details/106266079

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 141 订阅

订阅专栏

小样本学习

100 篇文章 136 订阅

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种终生记忆模块（life-long memory module）能够使得许多神经网络实现单样本学习，核心思想还是在训练时将每个类别样本的特征信息与对应的标签值保存下来，测试时利用最近邻思想，选择与查询样例最接近的K个样本，并据此预测插叙样例的标签。记忆模块由“键-值”对构成，“键” $K$ 是神经网络特定层的输出，“值” $V$ 则是给定样本对应的标签，此外还有一个额外的向量 $A$ 用于保存各个“键-值”对的“年龄”，记忆模块 $M$ 如下式
在这里插入图片描述
给定一个查询向量 $q$ ，且 $q$ 是经过归一化处理的，则 $M$ 中 $q$ 的最近邻被定义为其“键”与 $q$ 的内积最大的那个“键-值”对，如下式所示

因为“键”和查询向量都是经过归一化处理的，因此上式可以等价为计算余弦相似性。进一步拓展计算 $k$ 个最近邻，并按照由近到远的顺序排列
在这里插入图片描述
得到最主要的结果 $V[n_1]$ ，并计算余弦相似性 $d_i=q\cdot K[n_i]$ ，进一步得到 $softmax(d_i\cdot t,...,d_k\cdot t)$ ，其中 $t$ 表示softmax温度的倒数，本文取 $t = 40$ 。文设计的记忆模块是能够训练的，那么记忆模块是如何进行训练和更新的呢？
每当输入一个新的查询向量 $q$ ，假设其真实标签为 $v$ ，经计算得到的最近邻为 $n_1$ 。如果 $n_1$ 对应的值 $V[n_1]=v$ ，则是需要将 $n_1$ 对应的键进行更新，如下式
在这里插入图片描述
并且将对应的年龄向量 $A[n_1]$ 更新为0。如果 $V[n_1]\neq v$ ，那么就需要将新的键值对 $(q, v)$ 写入记忆模块，写到哪里呢？这需要从年龄最大的项里面随机选择一个 $n^{'}$ （年龄越大表示越长时间没有被更新过了）,然后更新对应的值
在这里插入图片描述
最后把所有没被更新的“键-值”对其年龄都加1。

使用时需要考虑如何高效地计算最近邻，假设一个小批次的查询向量构成矩阵 $Q=[q_1,...,q_b]$ ，只需要计算一个矩阵乘法 $Q\times K^T$ 就能得到对应的距离矩阵。如果精确计算模式还是太慢，可以使用局部敏感哈希（LSH）近似计算最近邻。首先随机选择一些经过规范化处理的哈希向量 $h_1,...h_l$ ，则查询向量 $q$ 对应的哈希编码为一串二进制数字 $b_1,...,b_l$ ，其中 $b_i=1$ 当且仅当 $q\cdot h_i>0$ 。这样我们可以得到所有“键”和查询向量对应的哈希编码，如果两个向量对应的哈希编码中相同的位越多，则表示二者相似的可能性越大，因此在计算最近邻时，只需要对哈希编码相同的向量进行计算。
对于采用卷积神经网络实现的小样本分类任务，运用本文提出的记忆模块的方式非常简单，将最后一层卷积层输出的向量作为查询向量，计算与记忆模块中的最近邻作为预测的结果。

实现过程

网络结构

本文设计的记忆模块本身不具备网络结构，可以配合各种任务网络使用。

损失函数

本文提出一种记忆损失用于提高特征向量的表征能力，对于查询向量 $q$ 和对应的标签 $v$ ，首先计算 $k$ 个最近邻中，类别相同的“键-值”对的最小索引值 $p, V[n_p]=v$ ，和类别不同“键-值”对中的最小索引值 $V[n_b]\neq v$ ，则记忆损失为
在这里插入图片描述
式中 $\alpha$ 表示阈值参数，本文取 $\alpha=0.1$ 。因为对于相同的两项余弦相似性最大，所以记忆损失函数的目的就是，使正确的“键”的余弦相似度最大化，使错误的“键”的余弦相似度最小化，且当两者之间的差距超过一定的阈值时，就不再传递损失了。

算法推广

本文除了可以与CNN结合应用于图像分类任务外，还可以与LSTM等结构结合，应用于机器翻译任务，此处只介绍与Google Neural Machine Translation (GNMT) 模型结合的方式。
在这里插入图片描述
如图所示GMMT包含：编码器，注意力模块和解码器三个部分，在结合记忆模块时，保留编码器部分不动，将注意力模块输出的向量作为查询向量保存在记忆模块中。在GMMT模型中，注意力模块的输出会用于解码器的每个LSTM模块中（除了第二个），因此记忆模块中向量的取用也会并行的应用于每个LSTM模块。在最后的softmax层之前，将记忆模块的输出和最后一个LSTM模块的输出利用一个线性层结合起来。