Neural Graph Matching Networks for Chinese Short Text Matching

在这里插入图片描述

  Neural Graph Matching Networks for Chinese Short Text Matching

1.介绍

中文短文本匹配不同于英文,中文分词可能是错误的、模糊的或不一致的,从而损害最终的匹配性能。比如下图:字符序列“南京市长江大桥”经过不同的分词可能表达为不同的意思。
在这里插入图片描述
本文针对这种情况提出了一种用于中文短文本匹配的神经图匹配方法(GMN)。不是将每个句子分割成一个单词序列,而是保留所有可能的分割路径,形成一个单词格图(segment1,segment2,segment3),如上图所示。GMN以一对词格图为输入,根据图匹配注意机制更新节点的表示。

2 Problem Statement

给定两个中文句子:
S a S^a Sa={ c c c a ^a a 1 _1 1,…, c c c a ^a a A _A A}, S b S^b Sb={ c c c b ^b b 1 _1 1,…, c c c b ^b b B _B B}
目标是预测这两个句子的语义是否相等。

本文提出了一种基于图的匹配模型,它不是把每个句子分割成一个词序列,而是保留所有可能的分割路径,形成一个词格图 G G G = ( V V V E E E)。 V V V是节点集,包括词典中匹配单词的所有字符子序列。 E E E是边集。如果一个节点 v i v_i vi V V V与原句中的另一个节点 v j v_j vj V V V相邻,那么它们之间就有一条边 e e e i _i i j _j j N N N f _f f w _w w( v i v_i vi)表示节点 v i v_i vi在其正向的所有可达节点的集合,而 N N N b _b b w _w w( v i v_i vi)表示节点 v i v_i vi在其反向的所有可达节点的集合。

对于两个图 G a G^a Ga= ( V a V^a Va E a E^a Ea)和 G b G^b Gb= ( V b V^b Vb E b E^b Eb),图匹配模型是预测它们的相似性,这表明原始句子 S a S^a Sa S b S^b Sb是否具有相同的含义。

3 Proposed Framework

如下图所示,模型由三个组件组成:上下文节点嵌入模块(BERT)、图匹配模块和关系分类器:
在这里插入图片描述

3.1 Contextual Node Embedding

对于图中的每个节点 v i v_i vi,其初始节点嵌入是上下文字符表示的attentive pooling:

  1. 首先连接原始的字符级句子,形成一个新的序列:
    . 在这里插入图片描述
  2. 将其输入BERT获得每个字符的上下文表示:
    . 在这里插入图片描述

假设节点 v i v_i vi n i n_i ni个字符token组成:
在这里插入图片描述
用一个两层的前馈网络(FNN)为每个字符 c c c s _s s i _i i + _+ + k _k k计算的具有特征的得分向量 u u u − ^- s _s s i _i i + _+ + k _k k,即

u u u − ^- s _s s i _i i + _+ + k _k k= FFN( c c c s _s s i _i i + _+ + k _k k)。
然后用基于特征的多维softmax归一化得到 u u u s _s s i _i i + _+ + k _k k (softmax( u u u − ^- s _s s i _i i + _+ + k _k k))。对应的字符嵌入 c c c s _s s i _i i + _+ + k _k k用归一化分数 u u u s _s s i _i i + _+ + k _k k加权,得到初始节点嵌入:
在这里插入图片描述

3.2 Neural Graph Matching Module

神经图匹配模块将上下文节点嵌入作为节点 v i v_i vi的初始表示 h 0 h_0 h0,然后通过两个子步骤更新其表示:消息传播和表示更新

 不失一般性,使用图Ga的节点来描述节点表示的更新过程,Gb中的节点更新过程也是类似的。
Message Propagation

在第 l l l步中, G a G^a Ga中的每个节点 v i v_i vi不仅从其可到达的节点在两个方向上聚集消息 m m m f ^f f w ^w w i _i i m m m b ^b b w ^w w i ^i i
在这里插入图片描述
而且还从图 G b G^b Gb中的所有节点聚合消息 m m m b ^b b 1 ^1 1 i _i i m m m b ^b b 2 ^2 2 i _i i
在这里插入图片描述
这里 α α α i _i i j _j j α α α i _i i k _k k α α α i _i i m _m m α α α i _i i q _q q是注意力系数。 W W W f ^f f w ^w w W W W b ^b b w ^w w是注意力系数参数在等式(1)(2)中共享。此外,定义:

在这里插入图片描述
在这里插入图片描述

通过这种共享机制,该模型具有一个很好的性质,即当两个图完全匹配时,有
在这里插入图片描述

它们不完全相等的原因是节点 v i v_i vi只能聚合图 G a G^a Ga中其可达节点的消息,而cross可以聚合 G b G^b Gb中所有节点的消息。

Representation Updating

在聚合消息之后,每个节点 v i v_i vi将更新:从 h h h l ^l l − ^- 1 ^1 1 i _i i h h h l ^l l i _i i的表示。这里首先用多视角余弦距离比较两个消息 m m m s ^s s e ^e e l ^l l f ^f f i _i i m m m c ^c c r ^r r o ^o o s ^s s s ^s s i _i i
在这里插入图片描述
其中 k k k∈{ 1 1 1 2 2 2,…, P P P} 。 w w w c ^c c o ^o o s ^s s k _k k是一个参数向量,它为不同维度的消息分配不同的权重。用 P P P距离 d 1 d_1 d1 d 2 d_2 d2,…, d P d_P dP更新 v i v_i vi的表示:
在这里插入图片描述
其中[,]表示两个向量的连接。 d i d_i di=[ d 1 d_1 d1 d 2 d_2 d2,…, d P d_P dP],FFN是一个具有两层的前馈网络。
在更新节点表示 L L L步之后,将获得每个节点 v i v_i vi的图感知表示 h L h^L hL i _i i h L h^L hL i _i i不仅包括来自其可达节点的信息,还包括与另一个图中所有节点成对比较的信息。两个图 G a G^a Ga G b G^b Gb的图级表示 g a g^a ga g b g^b gb是通过仔细汇集每个图中所有节点的表示来计算的。

3.3 Relation Classifier

使用两个图级表示 g a g^a ga g b g^b gb可以预测两个图或句子的相似性:
在这里插入图片描述
在这里插入图片描述
训练目标是最小化交叉熵损失。

4 Experiments

4.1 Experimental Setup

Dataset

在这里插入图片描述

Hyper-parameters

图形更新步骤/层L的数量是2。
节点表示的维数为128。
所有隐藏层的dropout为0.2。
匹配视角P的数量为20。
每个模型都是由RMSProp训练的,初始学习率为0.0001,batch大小为32。

4.2 Main Results

在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
近日,DeepMind 和谷歌联合进行了一项研究,该研究提出了一种执行相似性学习的新型强大模型——图匹配网络(GMN),性能优于 GNN 和 GCN 模型。该论文已被 ICML 2019 接收。 DeepMind 和谷歌的这项新研究聚焦检索和匹配图结构对象这一极具挑战性的问题,做出了两个重要贡献。 首先,研究者展示了如何训练图神经网络(GNN),使之生成可在向量空间中执行高效相似性推理的图嵌入。其次,研究者提出了新型图匹配网络模型(GMN),该模型以一对图作为输入,通过基于跨图注意力的新型匹配机制进行联合推理,从而计算它们之间的相似性分数。 研究者证明 GMN 模型在不同领域中的有效性,包括极具挑战性的基于控制流图的函数相似性搜索问题,这个问题在检索软件系统的漏洞中起着非常重要的作用。实验分析表明 GMN 模型不止能在相似性学习的环境下利用结构,还能超越针对这些问题手动精心设计的特定领域基线系统。研究主题:图相似性学习问题 图是编码关系结构的自然表征,常常出现在多个领域中。根据图结构数据定义的计算可以用在各种领域中,从计算生物学和化学的分子分析到自然语言理解中知识图或图结构解析的分析都可以。 近几年来,图神经网络(Graph Neural Network,GNN)已经成为可以有效学习结构数据表征、解决各种基于图的监督预测问题的模型了。这样的模型在迭代聚合局部结构信息的传播过程中设计并计算图节点表征,从而对图元素的排列(permutation)具有不变性。然后直接将这些节点表征用于节点分类,或者将它们合并到用于图分类的图向量中。而 GNN 在监督分类或回归以外的问题的相关研究相对较少。 DeepMind 的这篇论文研究的是图结构对象的相似性学习问题,这个问题在现实生活中有很多重要的应用,尤其是在图数据库中基于相似性的搜索。还有一个应用是涉及计算机安全的二元函数相似性搜索,给定的二元函数可能包含有已知漏洞的代码,我们要检查这个二元函数中是否有和已知易受攻击的函数相似的控制流图(control-flow-graph)。这有助于识别闭源软件中易受攻击的静态连结函式库,这是一个很常见的问题 (CVE, 2010; 2018),现在还没有很好的解决方法。图 1 展示了一个例子,在这个例子中用汇编语言注释的控制流图来表示二元函数。这种相似性学习问题极具挑战性,因为就算是图之间细微的差别也会造成语义上极大的不同,但结构不同的图语义上可能非常相似。因此,对这个问题而言,一个成功的模型应该(1)利用图结构;(2)能从图的结构和学习到的语义中推导出图的相似性。图 1:二元函数相似性学习问题。检查两个图是否相似需要推理图的结构和语义。左边两个控制流图对应使用不同编译器编译的相同函数(因此二者比较相似),但右侧图对应的是不同函数。 解决方案 为了解决图相似性学习问题,该论文研究了 GNN 在这种情况中的使用,探讨了如何用 GNN 将图嵌入到向量空间,并学习这种嵌入模型,从而使向量空间中相似的图靠近、不相似的图分开。这个模型的一个重要特性是它可以将每一个图独立地映射到一个嵌入向量,然后在向量空间中执行相似性计算。因此,可以预先计算并索引大型数据库中的图嵌入,这样就能用快速的最近邻搜索数据结构(如 k-d 树) 或局部敏感哈希算法 (Gionis et al., 1999) 执行高效的检索。 研究者进一步扩展 GNN,提出新型图匹配网络(Graph Matching Networks,GMN)来执行相似性学习。GMN 没有单独计算每个图的图表征,它通过跨图注意力机制计算相似性分数,来关联图之间的节点并识别差异。该模型依赖成对图计算图表征,因此它比嵌入模型更强大,并在准确率和计算之间做出了很好的权衡。 研究者在三个任务上评估了 GMN 和基线模型:仅捕获结构相似性的合成图编辑距离学习任务(synthetic graph edit-distance learning tas),以及两个现实世界任务——二元函数相似性搜索和网格检索,这两项任务都需要推理结构相似性和语义相似性。在所有任务中,GMN 都比基线和结构不可知(structure agnostic)模型的性能更好。在更详细的模型简化测试中,研究者发现 GMN 始终优于图嵌入模型和 Siamese 网络。 该研究的贡献如下: 展示了如何用 GNN 产生用于相似性学习的图嵌入; 提出了新型图匹配网络(GMN),该网络基于跨图注意力匹配来计算相似性; 实验证明,该研究提出的图相似性学习模型 GMN 在多个应用中都有良好的表现,比结构不可知模型和现有的手动建立的基线模型都要好。 深度图相似性学习 给定两个图 G1 = (V1, E1) 和 G2 = (V2, E2),我们需要一个可以计算两图之间相似性分数 s(G1, G2) 的模型。每个图 G = (V, E) 被表示为节点 V 和边 E 的集合,每个节点 i∈V 都可以和特征向量 x_i 相关联,每条边 (i, j) ∈ E 都可以和特征向量 x_ij 关联起来。这些特征可以表示节点类型、边的方向等。如果一个节点或者一条边不能关联任何特征,那么我们可以将对应向量设置成值为 1 的常量。研究者提出了两个图相似性学习模型:一个是基于标准 GNN 的学习图嵌入的模型;另一个是更为崭新也更加强大的 GMN。图 2 展示了这两个模型:图嵌入模型 图嵌入模型可以将每一个图都嵌入到向量中,然后用向量空间中的相似性矩阵衡量图之间的相似性。GNN 嵌入模型包括三个部分:编码器、传播层和聚合器。 图匹配网络 图匹配网络以一对图作为输入,计算它们之间的相似性分数。和嵌入模型相比,图匹配模型联合成对图计算相似性分数,而不是先将每个图独立地映射到向量上。因此,图匹配模型可能比嵌入模型更加强大,但它需要额外的计算效率。 图匹配网络改变了每个传播层中的节点更新模块,这样不仅可以考虑到每个图的边上的聚合信息,还可以考虑到衡量一个图中的一个节点和其他图中的一或多个节点匹配近日,DeepMind 和谷歌联合进行了一项研究,该研究提出了一种执行相似性学习的新型强大模型——图匹配网络(GMN),性能优于 GNN 和 GCN 模型。该论文已被 ICML 2019 接收。 程度的跨图匹配向量:以调整图的表征,在它们不匹配时放大它们之间的差异。 实验 研究者在三个任务上评估了图相似性学习(Graph Similarity Learning,GSL)框架、图嵌入模型(GNN)以及图匹配网络(GMN)的性能,并将这些模型与其他方法进行了对比。总体上,实验结果表明在图相似性学习任务上,GMN 表现优异,而且始终优于其他方法。 学习图编辑距离(GED) 图 G1 和 G2 之间的图编辑距离即将 G1 变换为 G2 所需的最小编辑操作。通常这些编辑操作包括添加/移除/替换节点和边。图编辑距离是衡量图之间相似性的自然指标,在图相似性搜索中有很多应用。 从下表 1 中可以看出,通过学习特定分布的图,GSL 模型的性能优于一般的基线模型,而 GMN 的性能持续优于图嵌入模型(GNN)。基于控制流图的二元函数相似性搜索 二元函数相似性搜索是计算机安全领域中的重要问题。当我们无法获取源代码时,可以通过二元函数执行分析和搜索,例如在处理商业或嵌入式软件或可疑的可执行程序时。 下图 4 展示了具备不同传播步和不同数据设置的不同模型在二元函数相似性搜索任务上的性能。从图中,我们可以看到: 图嵌入模型和图匹配模型的性能随着传播步的增加而持续提升; 在传播步足够的情况下,图嵌入模型持续优于基线模型; 图匹配模型在所有设置和传播步的情况下都优于图嵌入模型。研究者检测了GMN 模型中不同组件的效果,并将 GMN 模型与图卷积网络(GCN)、图神经网络(GNN)和 GNN/GCN 嵌入模型的 Siamese 版本进行对比。 下表 2 展示了实验结果,表明: GNN 嵌入模型是具备竞争力的模型(比 GCN 模型强大); 使用 Siamese 网络架构基于图表征学习相似性要比使用预先指定的相似性指标(Euclidean、Hamming 等)好; GMN 优于Siamese 模型,这表明在计算过程早期进行跨图信息交流是非常重要的。
混合图神经网络用于少样本学习。少样本学习是指在给定的样本数量非常有限的情况下,如何进行有效的学习和分类任务。混合图神经网络是一种结合了图神经网络和其他模型的方法,用于解决少样本学习问题。 首先,混合图神经网络将图神经网络与其他模型结合起来,以充分利用它们在不同任务上的优势。图神经网络可以有效地处理图结构数据,并捕捉节点之间的关系,而其他模型可能在处理其他类型的数据时更加优秀。通过将它们结合起来,混合图神经网络可以在少样本学习中更好地利用有限的数据。 其次,混合图神经网络可以通过在训练过程中使用一些预训练模型来提高学习效果。预训练模型是在大规模数据集上进行训练得到的模型,在特定任务上可能有较好的性能。通过将预训练模型与图神经网络结合,混合图神经网络可以在少样本学习中利用预训练模型的知识,以更好地适应有限的数据。 最后,混合图神经网络还可以通过设计适当的注意力机制来提高学习效果。注意力机制可以使网络更加关注重要的特征和关系,忽略无关的信息。在少样本学习中,选择性地关注有限的样本和特征对于提高学习的效果至关重要。混合图神经网络可以通过引入适当的注意力机制来实现这一点,以提取和利用关键信息。 综上所述,混合图神经网络是一种用于少样本学习的方法,它结合了图神经网络和其他模型的优势,并利用预训练模型和适当的注意力机制来提高学习效果。这种方法对于在有限数据条件下执行有效的学习和分类任务非常有帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值