解读RE2《Simple and Effective Text Matching with Richer Alignment Features》

Paper: https://www.aclweb.org/anthology/P19-1465

Code: https://github.com/hitvoice/RE2

文章摘要

    文中提出了一种快速、强悍神经网络方法来用于通用文本的匹配。我们研究了构建一个快速且性能良好的文本匹配模型的足够条件,并建议保持三个用于序列间对齐的关键特性:原始点对齐特性、先前对齐特性和上下文特性,同时简化所有剩余组件。我们在自然语言推理、意图识别和答案选择等任务中,对4个研究良好的基准数据集进行了实验。我们的模型性能与最先进的模型相当,并且使用的参数更少,除此之外,在推理速度方面与类似模型的相比,至少要快6倍。

本文模型算法RE2

下图给出了总体架构的说明,两个文本序列在预测层前对称处理,除预测层中参数外的所有参数在两个序列之间共享。

其中,对齐融合层的输入分为三个部分:原始点态特征(嵌入向量,用空白矩形表示)、先前对齐特征(剩余向量,用对角线矩形表示)和上下文特征(编码向量,用实矩形表示)。右边的架构与左边的架构相同,所以为了简洁起见省略了它。

Augmented Residual Connections(增强剩余链接)

    为了给对齐过程提供更丰富的特性,RE2采用了增强版的剩余连接来连接连续块。在增强剩余连接的情况下,对齐和融合层的输入分为三个部分,即原始的点方向特征(嵌入向量)、先前对齐特征(残差向量)和后编码层上下文特征(编码向量)。这三个部分在文本匹配过程中都起到了互补的作用。

对于长度为l的序列,我们将第n个块的输入和输出表示为。 令为零向量序列。 如前所述,第一块的输入是嵌入层的输出(在图1中用空白矩形表示)。 第n个块(n≥2)的输入是第一个块的输入和前两个块的输出的总和(由具有斜条纹的矩形表示)的串联 图1):

AlignmentLayer(对齐层)

对齐层(如上面架构图所示)将来自两个序列的特性作为输入,并计算对齐后的表示形式作为输出。

如图1所示,将两个序列的特征作为输入,并将对齐的表示作为输出进行计算。 从第一个序列输入长度的长度表示为并从第二个长度为lb的序列输入表示为。 相似之处ai和bj之间的得分eij被计算为点投影向量的乘积:

Fusion Layer(融合层)

    融合层比较三个透视图中的局部表示和对齐表示,然后将它们融合在一起。

Prediction Layer(预测层)

    预测层以池层中v1和v2两个序列的向量表示作为输入,预测最终目标。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值