AAAI19 - Hybrid attention-based prototypical networks for noisy few-shot relation classification

最新推荐文章于 2023-03-20 09:00:00 发布

ywm_up

最新推荐文章于 2023-03-20 09:00:00 发布

阅读量324

点赞数 2

文章标签： nlp 小样本学习原型网络 attention

原文链接：https://blog.csdn.net/Matt_sh/article/details/106986467

版权

针对关系抽取任务，本文提出一种混合的 attention 原型网络。本文提出的方法能够在更快的时间内收敛，效果更好、

本文混合的 attention 原型网络包括两部分：

混合的 attention 原型网络优点：更有效和鲁棒，训练限制少，运行快

请添加图片描述
混合的 attention 原型网络框架包含三个部分

计算 support set 中每个关系的原型
对每个关系，输入是 K 个编码的句向量，输出一个 prototype 向量
原本的方式是简单平均： $\mathbf{c}_{i}=\frac{1}{n_{i}} \sum_{j=1}^{n_{i}} \mathbf{x}_{i}^{j}$ 【关系 i 的原型向量】
然后就是计算 query 编码与每个原型的距离，做一个 softmax，得到预测类别。
$p_{\phi}\left(y=r_{i} \mid x\right)=\frac{\exp \left(-d\left(f_{\phi}(x), \mathbf{c}_{i}\right)\right)}{\sum_{j=1}^{|\mathcal{R}|} \exp \left(-d\left(f_{\phi}(x), \mathbf{c}_{j}\right)\right)}$

本文混合的 attention 原型网络包括两部分：

Instance-level Attention

这一 attention 用于计算原型
将原来计算原型取平均的方式改成 attention： $\mathbf{c}_{i}=\sum_{j=1}^{n_{i}} \alpha_{j} {x}_{i}^{j}$
其中 $α_j$ 是权重，定义如下：
- g()：线性层
- $\odot$ ：向量点击
- σ()：sigmoid 激活函数
  $\begin{aligned} \alpha_{j} &=\frac{\exp \left(e_{j}\right)}{\sum_{k=1}^{n_{i}} \exp \left(e_{k}\right)} \\ e_{j} &=\operatorname{sum}\left\{\sigma\left(g\left(\mathbf{x}_{i}^{j}\right) \odot g(\mathbf{x})\right)\right\} \end{aligned}$
目的：缓解数据集噪声的情况。就是说，在这个关系的实例中，与查询向量更类似的，会有更高的注意力权重。所以那些被错误标注的，往往会有更低的权重。总之就是比平均好。

Feature-level Attention

这一 attention 用于 query 归类
出发点：先前研究论证了距离函数的选择会影响这个网络的能力。小样本数据集意味着特征是稀疏的，简单的欧式距离能力不足。虽然特征空间是稀疏的，但总会有些维度有更强的区分能力，所以需要特征层面的注意力机制。
修改距离计算： $d\left({s}_{1}, {s}_{2}\right)={z}_{i} \cdot\left({s}_{1}-{s}_{2}\right)^{2}$
这里的关系 i 的注意力得分就不是一个标量了，而是一个得分向量 $z_i$
就是将该关系下的K个实例的编码向量 $x_1, x_2, ..., x_K)$ 进行多次卷积得到的，具体操作如图

考虑到训练集有64类关系，更多的关系会使模型在训练集得到更好地结果，因此，对每个Batch随机采样20个关系做N-K。
其他所有超参数在验证集上调参。用grid search。特别提到了初始学习率和权重衰减值。优化策略主要体现在学习率方面。按步数衰减学习率，做了非常多的尝试。【到时复现再说】

关注