PositionRank An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents阅读笔记

PositionRank是一种无监督的基于图的模型,用于从学术文档中提取关键短语。它结合了单词的位置信息和频率,通过位置偏置的PageRank计算节点的重要性。在多个研究论文数据集上的实验显示,PositionRank优于仅使用单词首次出现位置的模型,且与基于PageRank的基线相比有显著改进。模型特别关注早期出现在文档中的单词,提高了它们的评分。
摘要由CSDN通过智能技术生成

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents阅读笔记

动机

在这里插入图片描述

通过观察发现,在此示例中,在文档中很早出现的关键短语“马尔可夫链”的高频出现(甚至从其标题开始)。

所以作者联合利用单词的位置信息及其在文档中的频率来设计一种有效的无监督方法来提取关键短语

贡献点

  • 我们提出了一种无监督的基于图的模型,称为 PositionRank,它将来自单词出现的所有位置的信息合并到有偏差的 PageRank 中,以对后来用于对研究论文中的关键短语进行评分和排名的关键字进行评分。
  • 我们表明,聚合来自单词出现的所有位置的信息的 PositionRank 比仅使用单词的第一个位置的模型表现更好。
  • 我们在三个研究论文数据集上对 PositionRank 进行了实验性评估,并显示出与不考虑单词位置的基于 PageRank 的模型以及用于关键短语提取的强基线相比具有统计学意义的改进。
  • 这篇论文是一个位置偏向的PageRank模型的设计,它成功地结合了一个单词出现的所有位置,这与只使用一个单词的第一个位置的监督模型不同。 我们的模型为文档中早期发现的单词分配了更高的概率,而不是使用单词的均匀分布。

具体做法

图构建

  • 首先使用stanfordCoreNLP工具对单词进行分词和词性标注,然后只选择名词和形容词
  • 构建一个无向图,其中节点为上一步筛选出来的单词,两个节点 v i v_i vi v j v_j vj的权重是看在一个滑动窗口中(例如窗口大小为3), v i v_i vi v j v_j vj同时出现的次数

位置偏置的PageRank

  • 首先设置一个邻接矩阵M,其中
    m i , j = { k , i 和 j 相 连 的 权 重 k 0 , i , j 不 相 连 m_{i,j}=\begin{cases} k,i和j相连的权重k\\ 0,i,j不相连 \end{cases} mi,j={k,ijk0i,j

  • 设置S为向量的PageRank分数,对于每一个节点,初始的分数都是 1 ∣ V ∣ \frac{1}{|V|} V1,步骤t+1中每个节点的分数可以用下面的公式计算

  • 在这里插入图片描述

  • 为了确保 PageRank(或随机游走)不会卡在图的循环中,添加了阻尼因子 α 以允许“传送”操作到图中的另一个节点。 因此,S 的计算变为:

在这里插入图片描述

  • 位置信息的计算公式为
    在这里插入图片描述

    举个例子就是如果一个单词在第2、5、10位置出现,那么他的分数就是 1 2 + 1 5 + 1 10 = 0.8 \frac{1}{2}+\frac{1}{5}+\frac{1}{10} = 0.8 21+51+101=0.8

  • 经过上述推导,最后一个节点 v i v_i vi的PageRank得分可以由下面的公式递归得到
    在这里插入图片描述

候选术语生成

  • 在文档中具有连续位置的候选词被连接成短语。我们考虑与正则表达式 (形容词)*(名词)+ 匹配的名词短语,长度不超过三个,(即,unigrams、bigrams 和 trigrams)。

实验

  • 数据集

    • KDD
    • WWW
    • Nguyen
  • 数据集概览
    在这里插入图片描述

  • 结果
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值