论文《Matching Article Pairs with Graphical Decompositon and Convolutions》阅读报告

摘要

作者提出概念交互图将文章表示为概念图,然后通过一系列的编码技术,对包含相同概念顶点的语句进行对比,匹配一对文章,并通过图卷积网络对匹配信号进行聚合。

介绍

作者将分治原理应用于匹配一对文章,并将对文本的深入理解从目前占主导地位的语言元素的顺序建模提升到更适合长文章的图形化文档表示的新层次。具体来说,作者做了如下规定:

  • 概念交互作用图(GIG):
    将文档表示为概念的加权图,其中每个概念顶点要么是一个关键字,要么是一组紧密连接的关键字。文章中与每个概念相关的句子是与另一篇文章中出现的同一概念进行局部比较的特征。此外,文章中两个概念顶点之间也通过加权边进行连接,加权边表示它们之间的相互作用强度
    GIG不仅捕获文档中基本的语义单位,也提供了一种方法来执行两篇文章之间的固定比较。

  • 分治框架:
    对于两篇文章中出现的每个概念顶点,我们首先通过一系列文本对编码方案获得局部匹配向量,包括神经编码和基于术语的编码。然后通过图卷积层将局部匹配向量聚合成最终的匹配结果。
    作者的模型将匹配过程分解为图的局部匹配子问题,每个子问题关注不同的概念,并使用GCN层基于整个图的整体视图生成匹配结果。

概念交互图GIG

它将句子表示为无向加权图,该图将文档分解为句子子集,每个子集关注不同的概念。给定一个文档D,一个GIG是一个图GD,图GD中的每个顶点叫做一个概念。一个概念是一个字或者一组在文档中高度相关的关键词。每个句子将被附加到它最相关的单一概念顶点,最常见的是句子提到的概念。因此,顶点将有自己的句子集,它们是不相交的。一对概念之间的边的权值表示这两个概念之间有多少相互关联,权值可以被多种方式确定。

在这里插入图片描述上图中,作者先使用标准的关键字提取算法从文档中提取Rick、Morty、Summer和Candy Planet等关键字。然后,这些关键字进一步聚集成三个概念,每个概念都是高度相关的关键字的子集。作者将文档中的每个句子附加到其最相关的概念顶点。句子对概念的依附自然地将原始文档分割成不相连的句子子集。因此,作者用关键概念的图来表示原始文档,每个概念都有一个句子子集和它们之间的交互拓扑。
接下来,作者描述了为单个文档构造CIG的详细步骤。

  • KeyGraph建设
    给定一个文档D,首先通过TextRank 提取命名实体和关键字。然后,根据发现的关键字集合,构造一个关键字共现图,即KeyGraph。每个关键字都是图中的一个顶点,如果两个关键字出现在同一个句子,就用边连接它们
    可以通过执行共引用解析和同义词分析来合并具有相同含义的关键字,从而进一步改进模型。

  • 概念检测(可选)
    关键词的结构揭示了关键词之间的联系。如果一个关键词子集高度相关,它们将在关键词中形成紧密连接的子图,我们称之为概念。社区检测可以将一个关键词Gkey分割成一组社区C={C1,C2,……},其中每个社区Ci包含了某个概念的关键字。通过使用重叠的社区检测,每个关键词可以出现在多个概念中。由于不同文档中的概念数量差异较大,利用基于中介中心性评分的算法来检测关键字群落。
    注意,这一步是可选的,即,可以直接使用每个关键字作为一个概念。概念检测带来的好处是它减少了图中的顶点数量并加快了匹配速度。

  • 句子附件
    计算每个句子和每个概念之间的余弦相似度,其中句子和概念由TF-IDF向量表示。把每个句子分配给与这个句子最相似的概念。与文档中任何概念不匹配的句子将被附加到不包含任何关键字的虚拟顶点

  • 边的建立
    为了构造反映不同概念之间相关性的边,对于每个顶点,将其句子集表示为连接在其上的句子,并计算任意两个顶点之间的边权作为它们句子集之间的TF-IDF相似性。使用TF-IDF相似性构造边会生成一个连接更紧密的CIG。

在这里插入图片描述上图表示的就是当执行文章对匹配时,上述步骤将应用于一对文档DA和DB。唯一的附加步骤是通过概念顶点对齐两篇文章的CIGs,对于每个公共概念顶点,合并DA和DB中的语句集以进行局部比较。

通过图卷积匹配文章对

作者通过==“分治“的方式,将两个文档DA和DB中与每个概念相关的语句集进行匹配,并通过多个图卷积将局部匹配结果聚合为最终结果==。该方法克服了以往文本匹配算法的局限性,将文本表示从顺序(或网格)的观点扩展为图形化的观点,因此可以更好地捕获长文本中丰富的语意交互

在这里插入图片描述
上图说明了方法的总体框架,包含了四个步骤:

  1. 用一个合并的CIG表示一对文档。
  2. 学习每个概念顶点的多视点匹配特征。
  3. 通过图卷积层对局部匹配特征进行结构变换。
  4. 聚合本地匹配特征得到最终结果。

步骤2-4可以端到端的训练。

  • 编码局部匹配向量
    对于给定的CIG GAB,第一步是从DA和DB两个文档的概念v的句子集中,为每个单独的概念v∈GAB 学习一个合适的固定长度的匹配向量 ,来表示SA(v)和SB(v)之间的语义相似度。通过这种方法,将匹配两个文档转换为匹配GAB中每个顶点的句子集。
    具体来说,作者利用基于神经网络和基于词汇的技术生成局部匹配向量。
    作者使用Siamese结构将SA(v)和SB(v)(这是两个单词嵌入的序列)作为输入,通过具有相同权值的上下文层将它们编码成两个上下文向量。(如上图(b)所示)上下文层通常包含一个或多个具有最大共享层的双向LSTM(BiLSTM)或CNN层,目的是捕获SA(v)和SB(v)的上下文信息。
    mAB(v):顶点v的匹配向量,它将上下文向量的元素方向的绝对差和元素方向的多冲叠加连接起来。具体的计算如下:
    在这里插入图片描述
    基于词汇的相似性m`AB(v):通过直接计算SA(v)和SB(v)之间基于词汇的相似性,生成另一个匹配向量,它基于5个度量:TF-IDF余弦相似度、TF相似度、BM25余弦相似度、1-gram的Jaccard相似度和Ochiai相似度度量。

  • 通过GCN匹配聚合
    必须将局部匹配向量聚合为文章对的最终匹配分数
    一般来说GCN的输入是一个图,N个顶点和边(伴随权值)。同时输入还包括一个顶点特征矩阵。
    GCN中顶点vi的特征向量为:

在这里插入图片描述

  • GCN层在上图©中的应用

A∈R(N*N):图的加权邻接矩阵,其中Aij=wij(在CIG中,它是顶点i和顶点j的TF-IDF相似度)
D:对角矩阵,Dii=∑jAij
H^(0)=X:GCN的输入层
H(l)∈RN*Ml:第l层顶点的隐藏表示矩阵。

每个GCN层对之前的隐藏如下图的图卷积过滤器:
在这里插入图片描述
~A:等于A+IN,其中IN是单位矩阵
~D:一个对角矩阵, ~Dii=∑j ~Aij
它们分别是图G的邻接矩阵和度矩阵
W(l):第l层的可训练权矩阵。
σ:激活函数
mAB:取最后一层所有顶点的隐藏向量的平均值,将最后一层的隐藏表示合并成一个固定长度 的向量(称为图形合并匹配向量)

评价

  • 任务
    识别一对新闻文章是否报道相同的突发新闻(或事件),以及它们是否属于同一系列的新闻故事。
  • 数据集
    共有两个数据集:中文新闻同事件数据集(CNSE)和中文新闻同故事数据集(CNSS)。数据集包含许多对带有标签的新闻文章,这些标签表示一对新闻文章是否正在报道同一突发新闻事件。数据集中60%作为训练集,20%作为开发(验证)集,剩下的20%作为测试集。

下表显示了两者的详细分类。

在这里插入图片描述

  • 基线
  1. 通过表征聚集或交互聚焦深度神经网络模型进行匹配:DSSM,C-DSSM,DUET,MatchPyramind,ARC-I,ARC-II
  2. 根据基于词汇相似性进行匹配:BM25,LDA和SimNet
  3. 通过大规模的训练前语言模型进行匹配:BERT

注意,作者关注的是长文本匹配能力。因此,在作者的方法和基线中不使用任何短文本信息,例如标题。

  • 实现细节
  1. 利用CoreNLP用于分词(中文文本)和命名实体识别。

  2. 将最小的社区大小(一个概念顶点包含的关键字数量)为2,最大的社区大小设置为6。

  3. 神经网络模型由单词嵌入层,Siamese编码层,图数据转换层和分类层组成。

  4. 在前1000个步骤中,使用了一个负指数从0.0增加到0.01的学习速率热身方案,然后在剩下的训练中保持恒定的学习速率。

  5. 对于所有的实验,将最大训练时间设置为10。

  6. 结果与分析

在这里插入图片描述
上表总结了两个数据集上所有比较方法的性能,可以看出作者的模型在两个数据集上都获得了最好的性能,并显著优于所有其他方法。作者认为这归因于两个原因:
一是当一对文章的输入被重新组织成概念交互图时,两个文档将沿着相应的语义单元对齐,一边更容易地进行概念方面地比较。
二是作者的模型将不同语义单元地局部比较编码为局部匹配向量,并考虑语义拓扑,通过图卷积进行集合。因此,它解决了分治法匹配文档的问题,适合处理长文本。

  1. 图形分解的影响
    比较作者的方法XI和I-VI,作者的方法XIV和方法VII-IX,可以看出作者的方法通过使用图形分解实现了更好的性能。因此,作者认为图形分解可以极大地提高长文本匹配性能。

  2. 图卷积的影响
    比较方法XII和XI,以及XV和XIV。可以看出,==合并GCN层大大改善了方法在两个数据集的性能。==每个GCN层通过对相邻顶点的向量进行积分来更新每个顶点的隐藏向量。因此,GCN层学会以图形化的方法将本地匹配的特性聚合成最终结果。

  3. 社区检测的影响
    比较方法XIII和XII,以及方法XVI和XV,观察到使用社区检测,会导致略差的性能。这是合理的,因为直接使用每个关键字作为概念顶点为文章比较提供了更多的锚点。然而,社区检测可以将高度一致的关键字分组在一起,并将CIGs的平均大小从30减少到13个顶点。这帮助作者的模型的总培训和测试时间减少 55%。因此,人们可以选择是否使用社区检测来换取速度的提高。

  4. 多视点匹配的影响
    对比XVII和XV方法,可以看到不同图形匹配向量(基于词汇和Siame编码的特征)的连接可以进一步提高性能。这说明了多视点匹配的优点。

  5. 增加的全局特性的影响
    将方法XVIII、XIX、XX和XVII方法比较,可以看到,增加更多的全局特性(例如文章对的全局相似性)很难进一步提高性能。这表明,图形分解和卷积是提高性能的主要因素。由于它们已学会了将局部比较聚合成全局语义关系,因此在设计全局特性并无太大影响。

  6. 模型大小和参数敏感性
    没有BERT的最大模型是XVIII,它只包含 ~34K个参数。相比之下,BERT包含1.1m ~ 3.4m个参数。然而作者的模型明显优于BERT。
    经过测试发现2到3层的GCN层提供了最好的性能,进一步引入更多的GCN层并不能提高性能。而没有或只有1个GCN层,性能会差得多。此外,在GCN中,大小为16到128之间的隐藏表示可以产生良好的性能,进一步增加这个规模并没有显示出明显的改善。
    作者的模型对最大社区大小和最小社区大小不敏感,这些参数不会显著影响性能。

  7. 时间复杂度
    构建关键字图的时间复杂度为O(Ns * Nk+Nw2)
    基于中介的社区检测的时间复杂度为O(Nk3)
    句子分配和权重计算的复杂度为O(Ns * Nk+Nk2)

相关工作

  • 图形文档表示
    可以概括为四类:文字图,文本图,概念图,和混合图。

  • 文本匹配
    传统方法将文本文档表示为单词包(BOW)、词频逆文档频率(TF-IDF)、LDA。它们不能捕获语义距离,并且通常不能实现良好的性能。
    近年来,针对文本对匹配任务提出了不同的神经网络结构,但这些模型并没有充分利用长文本文档的固有结构特性。因此,对于长文本对匹配,它们不能获得良好的性能。
    训练前模型如(BERT)也可用于文本匹配。然而,该模型复杂度高,难以满足实际应用要求。

  • 图卷积网络
    作者贡献了GCNs来识别一对图之间的关系。概念交互图采用了一种简单的方式,通过加权无向图来表示文档

结论

作者提出了概念交互图来将文档组织成概念图,并引入了一种分治的方法来匹配一对基于图形分解和卷积聚合的文章。在专业编辑的帮助下,作者为长文档创建了两个新的数据集,包括大约60K对新闻文章,作者对它们做了广泛的评估。在实验中,作者提出的方法明显优于许多最先进的方案,包括基于词汇和基于深度模型的文本匹配算法。结果表明,所提出的图形分解和基于GCN层的结构转换是提高匹配文章对性能的关键。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值