自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 jieba源代码分析——四种分词模式(六)

2021SC@SDUSC2021SC@SDUSC

2021-12-28 00:28:59 881

原创 jieba源代码分析——四种分词模式(五)

2021SC@SDUSC2021SC@SDUSC

2021-12-27 23:23:35 1163

原创 jieba源代码分析——四种分词模式(四)

2021-12-26 23:32:13 1399

原创 jieba源代码解析——四种分词模式(三)

2021-12-20 00:06:51 167

原创 jieba源代码解析——四种分词模式(二)

2021SC@SDUSC2021SC@SDUSC2021SC@SDUSC2021SC@SDUSC

2021-12-12 21:05:27 1009

原创 jieba源代码分析——四种分词模式(一)

2021SC@SDUSC2021SC@SDUSC上篇博客讲了具体的流程,那么这篇博客我们分析它与TF-IDF对比代码

2021-12-05 23:26:04 942

原创 jieba库源代码分析——TextRank 算法与TF-IDF算法的对比

2021SC@SDUSC2021SC@SDUSC在之前的博客中已经详细分析了jieba中用于提取关键词的TextRank算法的源代码分析,但是比较零碎,我们现在可以使用例子来更好地了解TextRank算法源代码的工作原理以及一些可能忽略掉的细节。例如下面这段话(选自人民日报微博):【夜读:过得充实的人,都有这六个好习惯】①读书:不断追求成长和进步;②运动:保持积极的身心状态;③培养兴趣:爱好让生活丰富有趣;④制定计划:让目标成就更好的自己;⑤自省:拥有自我更新的能力,完善和提高自己;⑥保持好心态;始

2021-11-28 23:56:36 541

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析(七)

2021SC@SDUSC2021SC@SDUSC在上篇博文中,我们分析了类UndirectWeightedGraph中定义的最重要的用以计算权值的rank方法,至此,无向有权图的实现部分主要代码已经分析完毕,那么我们接下来继续分析textrank方法。首先回顾一下textrank方法之前实现词的共现部分的代码,里面就涉及到了无向有权图和权值,即其实对第二步只有简短的一小部分,大部分都涉及到了第三部分——即无向有权图。for i, wp in enumerate(words): #遍历cut之后的分

2021-11-21 22:15:07 322

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析(六)

2021SC@SDUSC2021SC@SDUSCrank函数代码讲解——更新权值部分上篇博客中开始介绍类UndirectWeightedGraph,首先分析了init初始化函数和过滤函数以及rank函数的一部分,接下来分析rank函数剩余部分。这是类中rank函数的代码,上次分析到,第一个for循环中,初始化各个节点的权重值,并定义相应的词典和节点出度之和的词典。def rank(self): ws = defaultdict(float) outSum = def

2021-11-14 21:29:31 602

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析(五)

2021SC@SDUSC2021SC@SDUSCText Rank实现过程第三步——计算图中节点的PageRank,注意是无向带权图上篇博客主要是分析TextRank算法的第二步,那么在分析过程中,出现了一句代码用于构建无向有权图g = UndirectWeightedGraph()这里主要是用了类UndirectWeightedGraph和其中的方法,那在分析TextRank方法最后一段用于输出关键词的代码前,我们需要先对类UndirectWeightedGraph进行分析。首先看类的初始化

2021-11-07 01:24:54 218

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析(四)

2021SC@SDUSC2021SC@SDUSCText Rank第二步——以固定窗口大小,词之间的共现关系,构建图在源代码分析(一)、(二)、(三)中主要针对TextRank算法中第一步——分词,进行分析。从本篇文章中开始继续分析textrank.py进行分析。def textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False): """

2021-10-29 16:00:27 377

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析(三)

TextRank第一步:分词——jieba.cut方法之有向无环图在上篇博客中分析jieba.cut方法,最后if结构中在不同的情况下调用了__cut_DAG方法和__cut_DAG_NO_HMM方法以及__cut_all方法,打开这三种方法代码,会发现都调用了get_DAG方法,DAG在这里指的就是有向无环图,注意,TextRank第三步生成的是无向带权图。那么我们首先分析生成有向无权图的get_DAG方法,代码如下:def get_DAG(self, sentence): self

2021-10-24 01:04:40 1738

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析(二)

TextRank算法思想通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。具体实现过程可以概括为以下三点:1.将待抽取关键词的文本进行分词2.以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图3.计算图中节点的PageRank,注意是无向带权图上篇博客中主要分析用于第一点分词的jieba.cut方法,详细介绍了paddle模式下的分词,这篇博客继续介绍jieba.cut剩余代码。 re_han =

2021-10-17 22:50:43 224

原创 jieba库中基于 TextRank 算法的关键词抽取——源代码分析(一)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、TextRank算法是什么?二、具体实现——分词抽取关键词1.jieba.cut2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、TextRank算法是什么?jieba库中用于关键词提取的算法主要有两种,一种是TF-IDF算法,一

2021-10-10 23:46:34 2075

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除