jieba库中基于 TextRank 算法的关键词抽取——源代码分析(二)

2021SC@SDUSC
2021SC@SDUSC

TextRank算法思想通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。具体实现过程可以概括为以下三点:

1.将待抽取关键词的文本进行分词
2.以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
3.计算图中节点的PageRank,注意是无向带权图

上篇博客中主要分析用于第一点分词的jieba.cut方法,详细介绍了paddle模式下的分词,这篇博客继续介绍jieba.cut剩余代码。

        re_han = re_han_default
        re_skip = re_skip_default
        if cut_all: # cut_all=True, HMM=True or False
            cut_block = self.__cut_all
        elif HMM:  # cut_all=False, HMM=True
            cut_block = self.__cut_DAG
        else:   # cut_all=False, HMM=False
            cut_block = self.__cut_DAG_NO_HMM
        blocks = re_han.split(sentence)
        for blk in blocks:
            if not blk:
                continue
            if re_han.match(blk):
                for word in cut_block(blk):
                    yield word
            else:
                tmp = re_skip.split(blk)
                for x in tmp:
                    if re_skip.match(x):
                        yield x
                    elif not cut_all:
                        for xx in x:
                            yield xx
                    else:
                        yield x

re是python有关正则表达式的内容,与分词有关,改变re_han_default可以改变分词相关的条件,所以这两句的具体代码,其实如下:

		# re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%]+)", re.U)
        re_han = re_han_default                
        # re_skip_default = re.compile("(\r\n|\s)", re.U)
        re_skip = re_skip_default   

剩余几行代码中的if语句结构代表:

如果cut_all=True, HMM=True or False,对应于全模式,即所有在词典中出现的词都会被切分出来,实现函数为__cut_all;

如果cut_all=False, HMM=False,对应于精确模式且不使用HMM;按Unigram语法模型找出联合概率最大的分词组合,实现函数为__cut_DAG,即DAG即构建的有向无环图;

如果cut_all=False, HMM=True对应于精确模式且使用HMM;在联合概率最大的分词组合的基础上,HMM识别未登录词,实现函数为__cut_DAG_NO_HMM。

blocks中是实际的分词结果。
jieba.cut返回一个可迭代的generator(有关yield,在上篇博客中解释过),可以使用 for 循环来获得分词后得到的每一个词语,储存在blocks中。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值