ExpandRank论文解读

最新推荐文章于 2024-08-31 15:34:19 发布

Trouble..

最新推荐文章于 2024-08-31 15:34:19 发布

阅读量194

点赞数 1

分类专栏：关键词抽取文章标签：算法自然语言处理数据挖掘

本文链接：https://blog.csdn.net/qq_45041871/article/details/126830876

版权

关键词抽取专栏收录该内容

16 篇文章 2 订阅

订阅专栏

Single Document Keyphrase Extraction Using Neighborhood Knowledge

ExpandRank是出自北京大学2008年的老论文，其实现思想为：现有的单文档关键字短语提取方法通常只使用指定文档中包含的信息。本文提出使用少量的最近邻文档来提供更多的知识，以改进单文档关键字短语提取。通过添加靠近文档的几个相邻文档，将指定文档扩展为小文档集，然后对扩展文档集应用基于图的排序算法，以利用指定文档中的局部信息和相邻文档中的全局信息。

ExpandRank实现

在这里插入图片描述

图1 ExpandRank实现理论框架图

文档的相似度计算TF-IDF算法， $d_i$ 和 $d_j$ 两个文档的相似度计算公式如下式3所示：
$sim_{doc}(d_i,d_j)=\frac{\vec d_i \cdot \vec d_j}{\parallel \vec d_i \parallel \times \parallel \vec d_j \parallel}$

关键字排名算法，利用PageRank等图迭代算法进行实现，最终每个关键字将会得到一个较为稳定的值。

Neighborhood-Level Word Evaluation

使用类似文档进行关键字排序，一般文本窗口（w）大小设置为2~20。两个节点之间的权重计算如下式4所示：
$aff(v_i,v_j)=\sum_{d_p \in D} sim_{doc}(d_0,d_p)\times count_{d_p}(v_i,v_j)$
其中 $count_{d_p}(v_i,v_j)$ 用来控制词 $v_i$ 和 $v_j$ 在文档 $d_p$ 中的共现关系； $sim_{doc}(d_0,d_p)$ 是用来衡量扩展文档 $d_p(0 \le p \le k)$ ；整个图边权重的计算方式如下式5所示：
$M_{ij}= \left\{ \begin{array}{l} {\rm{aff(v_i,v_j),\ if \ v_i \ links \ with \ v_j \ and \ i \ne j }} \\ {\rm{0, \ otherwise}} \\ \end{array} \right.$
最后矩阵 $M$ 将会被归一化，让矩阵的每一行加起来都为1，便于后续PageRank继续迭代。
$\widetilde M_{ij}=\left \{ \begin{array} {l} {\rm{M_{ij} / \sum_{j=1}^{|V|}M_{ij}, \ if \ \sum_{j=1}^{|V|}M_{ij} \ne 0}} \\ {\rm{0, \ otherwise}} \end{array} \right.$

$WordScore(v_i)=\mu \cdot \sum_{all \ j\ne i}WordScore(v_j) \cdot \widetilde M_{ji}+\frac{1-\mu}{|V|}$

等价于
$\vec \lambda=\mu \widetilde M^T \vec \lambda +\frac{1-\mu}{|V|} \vec e$
其中 $\vec \lambda =[WordScore(v_i)]_{|V| \times 1}$ ，一般情况下 $\vec e$ 为单位向量， $\mu$ 设置为0.85。

Document-Level Keyphrase Extraction

在计算了文档集中所有候选词的分数之后，为指定文档 $d_0$ 选择和评估候选短语（单个词或多个词）。 $d_0$ 的候选词（即名词和形容词）是 $V$ 的子集，在文档 $d_0$ 的文本中标记，相邻候选词的序列被折叠成多词短语。不允许以形容词结尾的短语，只有以名词结尾的短语被收集作为文档的候选短语。
$PhraseScore(p_i)=\sum_{v_j \in p_i}WordScore(v_j)$
其中 $p_i$ 为文档 $d_0$ 中候选关键词， $v_j$ 是 $p_i$ 的邻居节点。

ExpandRank实验

数据集：DUC2001。

表2 各种关键字抽取模型得分统计

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EWuwdHuH-1663042211450)(D:\Python\project\weekly_work\2022-09-05_2022-09-11\imgs\image-20220911092928162.png)]$