NLP-分词、词性标注及命名实体识别(二):TextRank原理及应用

本文介绍了TextRank算法的基本原理,该算法类似PageRank,用于从文本中无监督地提取关键词。通过构建语法单元的图并迭代计算节点权重,权重高的单元被视为关键词。算法包括预处理、设置过滤器、迭代计算直至收敛等步骤,最终输出关键短语。在NLP任务中,TextRank被用来进行分词、词性标注和命名实体识别。
摘要由CSDN通过智能技术生成

一、TextRank原理

       TextRank不需要大量标注样本,就可提取出文本相关词,其类似于PageRank思想,将文本的语法单元视作图中节点,如果两个语法单元存在一定语法关系(例如共现),其论文为:Rada Mihalcea的《TextRank:Bring Order into texts》。若将文本中语法单元视作图的节点,如果两个语法单元存在一定的语法关系(例如共现),则这两个语法单元在途中就会有一条边相互连接,通过一定的迭代次数,最终不同节点就会有不同的权重,权重高的语法单元就可以视为关键词。

节点的权重不仅依赖于其入度节点(百度之于好123),还依赖于度节点的权重,入度节点越多,入度的权重就越大,说明这个节点的权重越高:途中任意两点Vi,Vj之间的边权重为Wji,对于一个给定的点Vi,In(Vi)为指向该点的集合,Out(Vi)为点Vi指向点的集合。

                                            

        其中,d为阻尼系数,取值范围为0到1,代表从途中某一特定点指向其他任意点的概率,一般取值为0.85。使用TextRank算法计算图中各点的得分时,需要给图中的点指定任意的初值,并递归计算直到收敛,即图中任意点的误差率小于给定的极限值就可以达到收敛,一般该极限值取0.0001,算法通用流程:

1. 预处理,首先进行分词和词性标注,将单个word作为结点添加到图中;

2.设置语法过滤器,将通过语法过滤器的词汇添加到图中,出现在一个窗口中的词汇之间相互形成一条边;

3.基于上述公式,迭代直至收敛,一般迭代20-30次,迭代阈值设置为0.0001;

4.根据顶点的分数降序排列,并输出指定个数的词汇作为可能的关键词;

5.后处理࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值