Single TPR论文解读

最新推荐文章于 2024-09-01 21:08:00 发布

Trouble..

最新推荐文章于 2024-09-01 21:08:00 发布

阅读量364

点赞数 1

分类专栏：关键词抽取文章标签：自然语言处理数据挖掘算法

本文链接：https://blog.csdn.net/qq_45041871/article/details/126953774

版权

关键词抽取专栏收录该内容

16 篇文章 2 订阅

订阅专栏

Topical Word Importance for Fast Keyphrase Extraction

Single TPR简介

Single TPR是2015年提出来的，是基于TPR的进一步改进，TPR论文解读可以参考Topical PageRank(TPR)论文解读_Trouble…的博客-CSDN博客。Single TPR主要是对TPR需要使用LDA算法在大量语料中获取主题信息进行改进，只需计算每个文档中的单个PageRank，而不用考虑模型的主题数量。Single TPR极大地提升了速度，可以使用在存在大量主题的文本集合中，并且算法的性能不会下降很多。

Single TPR实现

对于Topical PageRank算法，其计算需要对每个主题下的字进行PageRank随机游走，最终获得每个字的排名。其计算公式如下所示：
$R_z(w_i)=\lambda \sum_{j:w_j \in w_i} (\frac{e(w_j,w_i)}{O(w_j)} \cdot R_z(w_j))+(1-\lambda) \cdot P_z(w_i)$
最终结合文档的主题情况，每个字的最终得分按照下式进行计算：
$R(w_i)=\sum_{z=1}^k R_z(w_i) \cdot P(z|d)$
作者针对每个文档需要使用K个PageRank算法迭代的方式进行改进：使用字主题向量 $\vec P(w_i|Z)=(P(w_i|z_1),...,P(w_i|z_k))$ 和文档主题 $\vec P(Z|d)=(P(z_1|d),...,P(z_k|d))$ 之间的余弦相似度，来确定每个字在文档中的权重，最终计算公式如下式所示。
$W(w_i)=\frac{\vec P(w_i|Z) \cdot \vec P(Z|d)}{\parallel \vec P(w_i|Z) \parallel \cdot \parallel \vec P(Z|d) \parallel}$
最终将 $W(w_i)$ 被看成 $w_i$ 在文档 $d$ 中“主题字的重要性”，如果 $w_i$ 是主题 $z_k$ 中的重要词，那么该字对该主题的贡献度应该更大。最终的Single TPR算法计算公式应该如下式所示：
$R(w_i)=\lambda \cdot \sum_{j:w_j \to w_i}(\frac{e(w_j,w_i)}{O(w_j)} \cdot R(w_j))+(1-\lambda) \cdot \frac{W(w_i)}{\sum_{w \in v} W(w)}$