叮叮咚咚乐呵呵-CSDN博客

原创 jieba源代码分析——四种分词模式（六）

2021SC@SDUSC2021SC@SDUSC

2021-12-28 00:28:59 902

原创 jieba源代码分析——四种分词模式（五）

2021SC@SDUSC2021SC@SDUSC

2021-12-27 23:23:35 1179

原创 jieba源代码解析——四种分词模式（二）

2021SC@SDUSC2021SC@SDUSC2021SC@SDUSC2021SC@SDUSC

2021-12-12 21:05:27 1028

原创 jieba源代码分析——四种分词模式（一）

2021SC@SDUSC2021SC@SDUSC上篇博客讲了具体的流程，那么这篇博客我们分析它与TF-IDF对比代码

2021-12-05 23:26:04 1014

原创 jieba库源代码分析——TextRank 算法与TF-IDF算法的对比

2021SC@SDUSC2021SC@SDUSC在之前的博客中已经详细分析了jieba中用于提取关键词的TextRank算法的源代码分析，但是比较零碎，我们现在可以使用例子来更好地了解TextRank算法源代码的工作原理以及一些可能忽略掉的细节。例如下面这段话（选自人民日报微博）：【夜读：过得充实的人，都有这六个好习惯】①读书：不断追求成长和进步；②运动：保持积极的身心状态；③培养兴趣：爱好让生活丰富有趣；④制定计划：让目标成就更好的自己；⑤自省：拥有自我更新的能力，完善和提高自己；⑥保持好心态；始

2021-11-28 23:56:36 582

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析（七）

2021SC@SDUSC2021SC@SDUSC在上篇博文中，我们分析了类UndirectWeightedGraph中定义的最重要的用以计算权值的rank方法，至此，无向有权图的实现部分主要代码已经分析完毕，那么我们接下来继续分析textrank方法。首先回顾一下textrank方法之前实现词的共现部分的代码，里面就涉及到了无向有权图和权值，即其实对第二步只有简短的一小部分，大部分都涉及到了第三部分——即无向有权图。for i, wp in enumerate(words): #遍历cut之后的分

2021-11-21 22:15:07 329

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析（六）

2021SC@SDUSC2021SC@SDUSCrank函数代码讲解——更新权值部分上篇博客中开始介绍类UndirectWeightedGraph，首先分析了init初始化函数和过滤函数以及rank函数的一部分，接下来分析rank函数剩余部分。这是类中rank函数的代码，上次分析到，第一个for循环中，初始化各个节点的权重值，并定义相应的词典和节点出度之和的词典。def rank(self): ws = defaultdict(float) outSum = def

2021-11-14 21:29:31 619

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析（五）

2021SC@SDUSC2021SC@SDUSCText Rank实现过程第三步——计算图中节点的PageRank，注意是无向带权图上篇博客主要是分析TextRank算法的第二步，那么在分析过程中，出现了一句代码用于构建无向有权图g = UndirectWeightedGraph()这里主要是用了类UndirectWeightedGraph和其中的方法，那在分析TextRank方法最后一段用于输出关键词的代码前，我们需要先对类UndirectWeightedGraph进行分析。首先看类的初始化

2021-11-07 01:24:54 227

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析（四）

2021SC@SDUSC2021SC@SDUSCText Rank第二步——以固定窗口大小，词之间的共现关系，构建图在源代码分析（一）、（二）、（三）中主要针对TextRank算法中第一步——分词，进行分析。从本篇文章中开始继续分析textrank.py进行分析。def textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False): """

2021-10-29 16:00:27 386

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析（三）

TextRank第一步：分词——jieba.cut方法之有向无环图在上篇博客中分析jieba.cut方法，最后if结构中在不同的情况下调用了__cut_DAG方法和__cut_DAG_NO_HMM方法以及__cut_all方法，打开这三种方法代码，会发现都调用了get_DAG方法，DAG在这里指的就是有向无环图，注意，TextRank第三步生成的是无向带权图。那么我们首先分析生成有向无权图的get_DAG方法，代码如下：def get_DAG(self, sentence): self

2021-10-24 01:04:40 1745

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析（二）

TextRank算法思想通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。具体实现过程可以概括为以下三点：1.将待抽取关键词的文本进行分词2.以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图3.计算图中节点的PageRank，注意是无向带权图上篇博客中主要分析用于第一点分词的jieba.cut方法，详细介绍了paddle模式下的分词，这篇博客继续介绍jieba.cut剩余代码。 re_han =

2021-10-17 22:50:43 235

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析（一）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、TextRank算法是什么？二、具体实现——分词抽取关键词1.jieba.cut2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、TextRank算法是什么？jieba库中用于关键词提取的算法主要有两种，一种是TF-IDF算法，一

2021-10-10 23:46:34 2138

qq_47229425的博客