Hyperbolic Relevance Matching for Neural Keyphrase Extraction阅读笔记

最新推荐文章于 2024-11-07 18:48:12 发布

Fitz1318

最新推荐文章于 2024-11-07 18:48:12 发布

阅读量419

点赞数

分类专栏：文献阅读及实验复现文章标签：自然语言处理 keyphrase 关键词抽取双曲空间

本文链接：https://blog.csdn.net/Fitz1318/article/details/124749525

版权

10 篇文章 4 订阅

订阅专栏

这是北京交通大学今年的关键词抽取新作，跳转了思路，通过将向量映射到双曲空间来获得隐含的关键词-文档之间的结构信息。

识别重要的关键短语是关键短语提取任务的核心组成部分，其主要挑战是如何全面表示信息并准确区分重要性

信息表示
- 通常，短语通常表现出固有的层次结构，其中包含复杂的句法和语义信息。如下图所示a large region of land比region有更复杂的固有结构
- 除了短语，由于语言本体是内在的层次结构（Dai et al., 2020），短语和文档之间的概念关系也可以形成层次结构。因此，在表示短语和文档以及估计短语-文档相关性时，需要考虑层次结构。但是在欧式空间中难以捕获到这种结构信息
重要性
- 关键词通常用于检索和索引其对应的文档，因此它们应该与源文档的要点高度相关（Hasan and Ng，2014）。然而，大多数现有的监督关键短语提取方法都忽略了对短语与其对应文档之间的相关性进行显式建模，从而导致有偏差的关键短语提取
解决思路
- 基于上述两点问题，作者提出了hyperbolic relevance matching model（HyperMatch）做关键词抽取。
- 首先，为了捕获分层句法和语义结构信息，HyperMatch 集成了 RoBERTa 的所有中间层中的隐藏表示，通过基于自注意机制的自适应混合层收集自适应上下文化词嵌入
- 考虑隐藏在自然语言内容中的层次结构，HyperMatch 通过双曲短语编码器和双曲文档编码器在同一个双曲空间中对短语和文档进行编码
- 同时，我们通过考虑短语和文档之间的潜在层次结构，采用庞加莱距离来计算短语-文档相关性。

在这里插入图片描述

首先是将单词送进RoBERTa得到每一层的隐藏向量，之后如下图所示，采用一个自适应混合层的自适应混合权重将每一层向量进行平均池化操作，之后转换到双曲空间中
然后就是使用庞加莱距离来计算短语和文档的相似度

在这里插入图片描述

在这里插入图片描述

这篇文章的主要就是将向量由原来的欧式空间转换到双曲空间中，说是这样更能捕获关键词-文档的结构
我感觉还是同一个思路。全局相似度：候选短语和文档的相似度；局部相似度：候选短语之间形成的一个个小主题。只是作者从表示空间那块动手处理这件事情。
这里有一个不同的就是作者采用n-gram方法而不是nltk中的正则匹配。从理论上来说，会带来更多的语义重复问题。
的就是作者采用n-gram方法而不是nltk中的正则匹配。从理论上来说，会带来更多的语义重复问题。
作者的写作思路很清楚，顶会的文章阅读起来很舒服，写作逻辑和方式值得借鉴