1.图表示解决长文本关系匹配问题:腾讯提出概念交互图算法
论文地址:https://arxiv.org/abs/1802.07459
相关数据资源:https://github.com/BangLiu/ArticlePairMatching
提出 Concept Interaction Graph 用于分解一篇或者一对文章。其主要思想是「化整为零,分而治之」。CIG 中的每个节点包含几个高度关联的关键字,以及和这些关键字高度相关的句子集。当进行文本对匹配时,每个节点包含来自两篇文章的两个句子集。这样,多个节点代表了两篇文章中的不同的子话题,并囊括了文章中的一部分句子并进行了对齐。节点之间的边代表不同子话题之间的联系紧密度。
基于 Concept Interaction Graph,论文进一步提出通过图神经网络(Graph Neural Networks)对文本对进行局部和全局匹配。具体而言,对每个节点上的文本对,利用编码器进行局部匹配,从而将长文本匹配转化为节点上的短文本匹配;再通过图神经网络来将文章结构信息嵌入到匹配结果中,综合所有的局部匹配结果,来得到全局匹配的结果。
个人认为这个建图方式在在长文本匹配里面是比较独特的。不过有点疑惑:具体构图过程规则较容易产生误差,最后是否会产生错误传递到后面节点内的短文本匹配上?