论文阅读Matching Artice Pairs with Graphical Decomposition and Convolutions将文章与图形分解和卷积匹配_matching article pairs with graphical decompositio-CSDN博客

本文链接：https://blog.csdn.net/Cristy_Chen/article/details/104190476

摘要

GCN在长文章匹配中的应用：概念交互图将文章表示为概念图，通过图卷积网络对匹配信号进行聚合，为方便对两篇长文章的匹配评估，建立两个数据集，包含各种主题。

介绍

识别两篇文章之间的关系是一项基本的自然语言理解任务——对新闻系统搜索引擎至关重要
难点：长文档中丰富的语义和逻辑结构
传统的基于词的匹配方法通过无监督的度量来估计一对文本对象之间的语义距离
近年来用于文本匹配的深度神经网络模型，可通过递归或卷积神经网络层捕获自然语言中的语义依赖（尤其是顺序依赖），但现有的深度模型主要用于匹配句子对
分治原理、提升到更适合长文章的图形化文档表示的新层次——
概念交互作用图（CIG），将文档表示为概念的加权图，每个概念顶点要么是一个关键字要么是一组紧密连接的关键字。与每个概念相关联的句子用作与另一文章中出现的同一概念进行局部比较的特征。文章中的两个概念顶点之间也通过加权边连接，以表示相互作用的强度。提出分治框架来匹配一对基于构造的CIG和图卷积网络作品（GCN）的文章。【1获得局部匹配向量，包括神经编码和基于术语的编码2通过图卷积层将局部匹配向量聚合成最终的匹配结果（将匹配过程分解为图上的局部匹配子问题，每个子问题关注不同的概念，并用GCN层基于整个图的整体试图生成匹配结果）

一对文档构造概念交互图（CIG）并通过图卷积网络对其进行分类的方法概述

单个文档的构造CIG步骤：
1 KeyGraph 建设给定一个文档首先通过TextRank提取命名实体和关键字，根据发现的关键字集合，构造一个关键字共现图（KeyGraph），每个关键字都是键图中的一个顶点，若两个关键字同时出现在一个句子中，则用边连接。
2 概念检测 关键词的结构揭示了关键词之间的关系。若关键字子集高度相关，则将在关键字中形成紧密连接的子图，称之为概念。应用社区检测算法在构建的密钥图上，提取出相应的概念。利用基于中介中心性评分的算法来检测KeyGraph中的关键字群落，以解决不同文档中的概念数量差异较大的问题。概念检测带来的好处：减少了图中顶点的数量并加速了匹配。
3 句子附件 根据概念对句子进行分组。计算每个句子和概念之间的余弦相似度（有TF-IDF向量表示），与文档中任何概念不匹配的句子将被附加到不包含任何关键字的虚拟顶点。
4 边建设 反映不同概念之间相关性。计算任意两个顶点之间的边权作为它们句子集之间的TF-IDF相似性（CIG连接更紧密）
编码局部匹配向量基于神经网络和基于术语的技术生成局部匹配向量。使用Siamese编码器进行匹配向量。
在这里插入图片描述
基于术语的相似性：通过计算SA(v)和SB(v)之间的相似性生成另一个匹配向量，基于：TF-IDF余弦相似度、TF余弦相似度、BM25余弦相似度、1-gram Jaccard相似度和Ochiai相似度，将这些相似度评分连接到v的另一个匹配向量m‘AB(v)中。
通过GCN进行匹配聚合本地匹配向量必须聚合为文章对的最终匹配分数（利用the ability of the GCN filters来捕获CIG GAB在多个尺度上表现出的模式）。
在这里插入图片描述
GCN的输入层H(0)=X，包含原始的顶点特征表示第l层顶点的隐藏表示矩阵
每个GCN层对之前的隐藏表达式应用如下图卷积滤波器：
IN 是单位矩阵，是对角矩阵W（l）是第I个可训练的权重矩阵层。σ (·)表示激活函数
最后，最后的隐藏表示GCN层合并为一个向量（称为孤星的图形合并匹配向量）长度，以mAB表示，取最后一层中所有顶点的隐藏向量平均值，最终匹配分数将根据mAB通过MLP计算。

评估

在这里插入图片描述

模型在两个数据集上均实现了最佳性能，并且明显优于其他所有方法。原因：
1随着文章对的输入被重新组织成概念交互图，两个文档沿着相应的语义单元对齐，以便于在概念上进行比较。
2模型将围绕不同语义单元的局部比较编码为局部匹配向量，然后通过图卷积将它们进行汇总，将语义拓扑纳入考虑范围。
解决了通过分而治之匹配文档的问题，适合于处理长文本。
将图表二中的方法XI和方法I-VI进行比较，XI以逐顶点分解的方式在CIG上比较一对文章，XI的性能明显优于I-VI，类似比较XIV和VII-IX，作者的方法通过图形分解实现了明显更好的性能。因此可得出结论，图形分解可大大提高长文本匹配性能。
图卷积的影响，合并GCN图层显着提高了两个数据集的性能，GCN层学会了以图形方式将局部匹配特征聚合为最终结果。
可以选择是否应用社区检测以牺牲准确性来提高速度。
不同图形匹配向量（基于术语和Siamese编码特征）的串联可以进一步提高性能，组合多视图匹配向量的优势。
图形分解和卷积是导致性能提高的主要因素。