NLP-分词、词性标注及命名实体识别（二）：TextRank原理及应用

最新推荐文章于 2024-08-01 22:30:58 发布

Merlin17Crystal33

最新推荐文章于 2024-08-01 22:30:58 发布

阅读量1.8k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35495233/article/details/86507795

版权

本文介绍了TextRank算法的基本原理，该算法类似PageRank，用于从文本中无监督地提取关键词。通过构建语法单元的图并迭代计算节点权重，权重高的单元被视为关键词。算法包括预处理、设置过滤器、迭代计算直至收敛等步骤，最终输出关键短语。在NLP任务中，TextRank被用来进行分词、词性标注和命名实体识别。

摘要由CSDN通过智能技术生成

一、TextRank原理

TextRank不需要大量标注样本，就可提取出文本相关词，其类似于PageRank思想，将文本的语法单元视作图中节点，如果两个语法单元存在一定语法关系（例如共现），其论文为：Rada Mihalcea的《TextRank:Bring Order into texts》。若将文本中语法单元视作图的节点，如果两个语法单元存在一定的语法关系（例如共现），则这两个语法单元在途中就会有一条边相互连接，通过一定的迭代次数，最终不同节点就会有不同的权重，权重高的语法单元就可以视为关键词。

节点的权重不仅依赖于其入度节点（百度之于好123），还依赖于度节点的权重，入度节点越多，入度的权重就越大，说明这个节点的权重越高：途中任意两点Vi，Vj之间的边权重为Wji，对于一个给定的点Vi，In(Vi)为指向该点的集合，Out(Vi)为点Vi指向点的集合。

其中，d为阻尼系数，取值范围为0到1，代表从途中某一特定点指向其他任意点的概率，一般取值为0.85。使用TextRank算法计算图中各点的得分时，需要给图中的点指定任意的初值，并递归计算直到收敛，即图中任意点的误差率小于给定的极限值就可以达到收敛，一般该极限值取0.0001，算法通用流程：

1. 预处理，首先进行分词和词性标注，将单个word作为结点添加到图中；

2.设置语法过滤器，将通过语法过滤器的词汇添加到图中，出现在一个窗口中的词汇之间相互形成一条边；

3.基于上述公式，迭代直至收敛，一般迭代20-30次，迭代阈值设置为0.0001；

4.根据顶点的分数降序排列，并输出指定个数的词汇作为可能的关键词；

5.后处理࿰

最低0.47元/天解锁文章

Merlin17Crystal33

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP-分词、词性标注及命名实体识别（二）：TextRank原理及应用

一、TextRank原理 TextRank不需要大量标注样本，就可提取出文本相关词，其类似于PageRank思想，将文本的语法单元视作图中节点，如果两个语法单元存在一定语法关系（例如共现），其论文为：Rada Mihalcea的《TextRank:Bring Order into texts》。若将文本中语法单元视作图的节点，如果两个语法单元存在一定的语法关系（例如共现），则这两个...
复制链接

扫一扫

专栏目录