PositionRank An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents阅读笔记

最新推荐文章于 2022-09-13 16:45:02 发布

Fitz1318

最新推荐文章于 2022-09-13 16:45:02 发布

阅读量572

点赞数

分类专栏：文献阅读及实验复现文章标签：算法深度学习人工智能

本文链接：https://blog.csdn.net/Fitz1318/article/details/122983319

版权

文献阅读及实验复现专栏收录该内容

10 篇文章 4 订阅

订阅专栏

PositionRank是一种无监督的基于图的模型，用于从学术文档中提取关键短语。它结合了单词的位置信息和频率，通过位置偏置的PageRank计算节点的重要性。在多个研究论文数据集上的实验显示，PositionRank优于仅使用单词首次出现位置的模型，且与基于PageRank的基线相比有显著改进。模型特别关注早期出现在文档中的单词，提高了它们的评分。

摘要由CSDN通过智能技术生成

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents阅读笔记

动机

在这里插入图片描述

通过观察发现，在此示例中，在文档中很早出现的关键短语“马尔可夫链”的高频出现（甚至从其标题开始）。

所以作者联合利用单词的位置信息及其在文档中的频率来设计一种有效的无监督方法来提取关键短语

贡献点

我们提出了一种无监督的基于图的模型，称为 PositionRank，它将来自单词出现的所有位置的信息合并到有偏差的 PageRank 中，以对后来用于对研究论文中的关键短语进行评分和排名的关键字进行评分。
我们表明，聚合来自单词出现的所有位置的信息的 PositionRank 比仅使用单词的第一个位置的模型表现更好。
我们在三个研究论文数据集上对 PositionRank 进行了实验性评估，并显示出与不考虑单词位置的基于 PageRank 的模型以及用于关键短语提取的强基线相比具有统计学意义的改进。
这篇论文是一个位置偏向的PageRank模型的设计，它成功地结合了一个单词出现的所有位置，这与只使用一个单词的第一个位置的监督模型不同。我们的模型为文档中早期发现的单词分配了更高的概率，而不是使用单词的均匀分布。