这是北京交通大学今年的关键词抽取新作,跳转了思路,通过将向量映射到双曲空间来获得隐含的关键词-文档之间的结构信息。
论文简单介绍
- 题目
Hyperbolic Relevance Matching for Neural Keyphrase Extraction
- 作者
Mingyang Song, Yi Feng and Liping Jing
- 单位
北京交通大虚
- 时间
2022
- 会议
NAACL
动机
识别重要的关键短语是关键短语提取任务的核心组成部分,其主要挑战是如何全面表示信息并准确区分重要性
- 信息表示
- 通常,短语通常表现出固有的层次结构,其中包含复杂的句法和语义信息。如下图所示
a large region of land
比region
有更复杂的固有结构 - 除了短语,由于语言本体是内在的层次结构(Dai et al., 2020),短语和文档之间的概念关系也可以形成层次结构。因此,在表示短语和文档以及估计短语-文档相关性时,需要考虑层次结构。但是在欧式空间中难以捕获到这种结构信息
- 通常,短语通常表现出固有的层次结构,其中包含复杂的句法和语义信息。如下图所示
- 重要性
- 关键词通常用于检索和索引其对应的文档,因此它们应该与源文档的要点高度相关(Hasan and Ng,2014)。然而,大多数现有的监督关键短语提取方法都忽略了对短语与其对应文档之间的相关性进行显式建模,从而导致有偏差的关键短语提取
- 解决思路
- 基于上述两点问题,作者提出了hyperbolic relevance matching model(HyperMatch)做关键词抽取。
- 首先,为了捕获分层句法和语义结构信息,HyperMatch 集成了 RoBERTa 的所有中间层中的隐藏表示,通过基于自注意机制的自适应混合层收集自适应上下文化词嵌入
- 考虑隐藏在自然语言内容中的层次结构,HyperMatch 通过双曲短语编码器和双曲文档编码器在同一个双曲空间中对短语和文档进行编码
- 同时,我们通过考虑短语和文档之间的潜在层次结构,采用庞加莱距离来计算短语-文档相关性。
模型
-
首先是将单词送进
RoBERTa
得到每一层的隐藏向量,之后如下图所示,采用一个自适应混合层的自适应混合权重
将每一层向量进行平均池化操作,之后转换到双曲空间中 -
然后就是使用庞加莱距离来计算短语和文档的相似度
实验
实验结果
我的思考
- 这篇文章的主要就是将向量由原来的欧式空间转换到双曲空间中,说是这样更能捕获关键词-文档的结构
- 我感觉还是同一个思路。全局相似度:候选短语和文档的相似度;局部相似度:候选短语之间形成的一个个小主题。只是作者从表示空间那块动手处理这件事情。
- 这里有一个不同的就是作者采用
n-gram
方法而不是nltk中的正则匹配。从理论上来说,会带来更多的语义重复问题。
的就是作者采用n-gram
方法而不是nltk中的正则匹配。从理论上来说,会带来更多的语义重复问题。 - 作者的写作思路很清楚,顶会的文章阅读起来很舒服,写作逻辑和方式值得借鉴