PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents阅读笔记
动机
通过观察发现,在此示例中,在文档中很早出现的关键短语“马尔可夫链”的高频出现(甚至从其标题开始)。
所以作者联合利用单词的位置信息及其在文档中的频率来设计一种有效的无监督方法来提取关键短语
贡献点
- 我们提出了一种无监督的基于图的模型,称为 PositionRank,它将来自单词出现的所有位置的信息合并到有偏差的 PageRank 中,以对后来用于对研究论文中的关键短语进行评分和排名的关键字进行评分。
- 我们表明,聚合来自单词出现的所有位置的信息的 PositionRank 比仅使用单词的第一个位置的模型表现更好。
- 我们在三个研究论文数据集上对 PositionRank 进行了实验性评估,并显示出与不考虑单词位置的基于 PageRank 的模型以及用于关键短语提取的强基线相比具有统计学意义的改进。
- 这篇论文是一个位置偏向的PageRank模型的设计,它成功地结合了一个单词出现的所有位置,这与只使用一个单词的第一个位置的监督模型不同。 我们的模型为文档中早期发现的单词分配了更高的概率,而不是使用单词的均匀分布。
具体做法
图构建
- 首先使用stanfordCoreNLP工具对单词进行分词和词性标注,然后只选择名词和形容词
- 构建一个无向图,其中节点为上一步筛选出来的单词,两个节点 v i v_i vi和 v j v_j vj的权重是看在一个滑动窗口中(例如窗口大小为3), v i v_i vi和 v j v_j vj同时出现的次数
位置偏置的PageRank
-
首先设置一个邻接矩阵M,其中
m i , j = { k , i 和 j 相 连 的 权 重 k 0 , i , j 不 相 连 m_{i,j}=\begin{cases} k,i和j相连的权重k\\ 0,i,j不相连 \end{cases} mi,j={k,i和j相连的权重k0,i,j不相连 -
设置S为向量的PageRank分数,对于每一个节点,初始的分数都是 1 ∣ V ∣ \frac{1}{|V|} ∣V∣1,步骤
t+1
中每个节点的分数可以用下面的公式计算 -
为了确保 PageRank(或随机游走)不会卡在图的循环中,添加了阻尼因子 α 以允许“传送”操作到图中的另一个节点。 因此,S 的计算变为:
-
位置信息的计算公式为
举个例子就是如果一个单词在第2、5、10位置出现,那么他的分数就是 1 2 + 1 5 + 1 10 = 0.8 \frac{1}{2}+\frac{1}{5}+\frac{1}{10} = 0.8 21+51+101=0.8
-
经过上述推导,最后一个节点 v i v_i vi的PageRank得分可以由下面的公式递归得到
候选术语生成
- 在文档中具有连续位置的候选词被连接成短语。我们考虑与正则表达式 (形容词)*(名词)+ 匹配的名词短语,长度不超过三个,(即,unigrams、bigrams 和 trigrams)。
实验
-
数据集
- KDD
- WWW
- Nguyen
-
数据集概览
-
结果