jieba库源代码分析——TextRank 算法与TF-IDF算法的对比

最新推荐文章于 2024-06-04 16:21:44 发布

叮叮咚咚乐呵呵

最新推荐文章于 2024-06-04 16:21:44 发布

阅读量721

点赞数

文章标签： python 算法 nlp

本文链接：https://blog.csdn.net/qq_47229425/article/details/121600461

版权

本文分析了jieba库中的TextRank和TF-IDF算法，这两种算法都用于关键词提取。TF-IDF基于词频和逆文档频率评估词的重要程度，而TextRank则更多考虑词的共现。在使用时，应根据需求选择合适的算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2021SC@SDUSC
2021SC@SDUSC
在python的jieba库中除了我们之前分析的TextRank算法以外，还有一种算法也用于提取关键词，即TF-IDF算法。
2021SC@SDUSC
TF-IDF算法（词频-逆文本频率）是一种用以评估字词在文档中重要程度的统计方法。它的核心思想是，如果某个词在一篇文章中出现的频率即TF高，并且在其他文档中出现的很少，则认为这个词有很好的类别区分能力。
主要运用以下公式：
在这里插入图片描述
其中：

这篇博文就来简单地对TF-IDF的关键算法进行分析，从而与之前几篇的TextRank算法做对比。
TFIDF类在初始化时，默认加载了分词函数tokenizer = jieba.dt、词性标注函数postokenizer = jieba.posseg.dt、停用词stop_words = self.STOP_WORDS.copy()、idf词典idf_loader = IDFLoader(idf_path or DEFAULT_IDF)等，并获取idf词典及idf中值（如果某个词没有出现在idf词典中，则将idf中值作为这个词的idf值）。

def extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

叮叮咚咚乐呵呵

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

jieba下TextRank实现

z2539329562的博客

03-29

2565

TextRank实现步骤如下： #这一段是抄了别人的（1）把给定的文本按照完整的句子进行分割；（2）对每个句子进行分词和词性标注，过滤停用词，只保留特定词性；（3）构建候选关键词图G=(V, E)，首先生成关键词集（（2）生成），然后采用共现关系构造两点之间的边，两个节点之间边仅在对应词汇长度为K的窗口中出现，K表示窗口大小；（4）迭代传播各节点的权重，直至收敛（5...

jieba库中基于 TextRank 算法的关键词抽取——源代码分析（六）

qq_47229425的博客

11-14

676

2021SC@SDUSC 2021SC@SDUSC rank函数代码讲解——更新权值部分上篇博客中开始介绍类UndirectWeightedGraph，首先分析了init初始化函数和过滤函数以及rank函数的一部分，接下来分析rank函数剩余部分。这是类中rank函数的代码，上次分析到，第一个for循环中，初始化各个节点的权重值，并定义相应的词典和节点出度之和的词典。 def rank(self): ws = defaultdict(float) outSum = def

参与评论您还未登录，请先登录后发表或查看评论

机器学习 | TF-IDF和TEXT-RANK的区别

RUC_Lee的博客

04-21

4798

提取关键字的两种方法1 背景1.1 为什么要计算这两个指标？2 什么是TF-IDF2.1 定义2.2 计算方式2.3 举例2.4 Python实现3 什么是TEXT-RANK3.1 定义/思想3.2 计算公式3.3 Python实现3.4 用途4 两者对比5 参考 1 背景在前面的一篇博客里，笔者层提到过这两种计算关键词的思路(尴尬了，好像没有提到，没事待会儿写一篇LDA主题模型的博客，里面会涉...

TF-IDF与TextRank

weixin_44060440的博客

02-07

611

TF-IDF TF_IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量；用以衡量一个关键词w对于查询(Query,可看作文档)所能提供的信息。 TF-IDF是两个指标的乘积：词频和逆文档频率。词频（Term Frequency, TF）表示关键词w在文档DiD_iDi中出现的频率:TFw,Di=count(w)∣Di∣TF_{w,D_i}=\frac{count(w)}{|D_i|}TFw,Di=∣Di∣count(

jieba分词textrank算法

Claire_Mk的博客

10-25

239

2021SC@SDUSC class UndirectWeightedGraph: d = 0.85 def __init__(self): self.graph = defaultdict(list) def addEdge(self, start, end, weight): # use a tuple (start, end, weight) instead of a Edge object self.graph[start

jieba库中基于 TextRank 算法的关键词抽取——源代码分析（一）

qq_47229425的博客

10-10

2405

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、TextRank算法是什么？二、具体实现——分词抽取关键词1.jieba.cut2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、TextRank算法是什么？ jieba库中用于关键词提取的算法主要有两种，一种是TF-IDF算法，一

数据大屏-Redis服务器-Springboot+Reids，词云使用Jieba分析（TF-IDF算法）.zip

最新发布

01-01

数据大屏-Redis服务器-Springboot+Reids，词云使用Jieba分析（TF-IDF算法）一、项目描述1 項目1.1 项目简介網站地址让我们先了解这个项目的原理先整理好需要的各种图表的数据，将其SQL语句存入query_statement表再...

使用TF-IDF算法进行数据处理（附代码）

etSha的博客

04-06

4772

使用TF-IDF算法，对中文文本进行分词、停词及词频计算。

基于某评论的TF-IDF下的LDA主题模型分析

m0_57265868的博客

06-04

1822

完整代码：数据源：代码逐行讲解：读取同目录下的文件，df1是数据框格式提取评论内容，并对评论内容做清洗，采用正则表达式，去除标点和英文。用jieba对每一行的数据作分词处理，最后得到的数据展现以及数据类型。总的来说，这段代码的目的是使用LDA模型来发现文档集合中的潜在主题。首先，它通过TF-IDF向量化器将文本数据转换为数值矩阵，然后使用这个矩阵来训练LDA模型，最后可以通过模型来分析文档的主题分布。打印出来的结果为：这段代码是用于分析和可视化LDA（Latent Diri

jieba库

weixin_33957648的博客

04-03

289

一、jieba 库简介 (1) jieba库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，jieba库还提供了增加自定义中文单词的功能。 (2) jieba库支持3种分词模式：精确模式：将句子最精确地切开，适合文本分析。全模式：将句子中所以可以成词的词语都扫描出来，速度非常快，但是不能消除歧义。搜索...

python的jieba功能

10-19

近来看到jieba分词功能，自己写了测试用，只是玩玩，没有内容，不要下载就好了，谢谢！！

textrank算法提取关键字

09-19

textrank作为文档关键字提取的常用算法，python将textrank封装了对象,可直接使用

jieba库中基于 TextRank 算法的关键词抽取——源代码分析（五）

qq_47229425的博客

11-07

270

2021SC@SDUSC 2021SC@SDUSC Text Rank实现过程第三步——计算图中节点的PageRank，注意是无向带权图上篇博客主要是分析TextRank算法的第二步，那么在分析过程中，出现了一句代码用于构建无向有权图 g = UndirectWeightedGraph() 这里主要是用了类UndirectWeightedGraph和其中的方法，那在分析TextRank方法最后一段用于输出关键词的代码前，我们需要先对类UndirectWeightedGraph进行分析。首先看类的初始化

jieba库中基于 TextRank 算法的关键词抽取——源代码分析（四）

qq_47229425的博客

10-29

444

2021SC@SDUSC 2021SC@SDUSC Text Rank第二步——以固定窗口大小，词之间的共现关系，构建图在源代码分析（一）、（二）、（三）中主要针对TextRank算法中第一步——分词，进行分析。从本篇文章中开始继续分析textrank.py进行分析。 def textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False): """

关键词提取(tf-idf与textRank)

热门推荐

gzt940726的博客

05-09

1万+

关键词提取(tf-idf与textRank) 一.tf-idf tf-idf提取关键词是一种简单有效的提取关键词的方法.其思想主要在于预先统计在语料中出现的所有词的词频,计算出idf值,然后再针对要提取关键词的文章或句子的每个词计算出tf值,乘起来便是tf-idf值.值越大表示作为关键词的优先级越高. 假设现在语料一共有M篇文章,其中词A在其中m篇中出现过了,那么A的idf值为log(M/m...

Python jieba库

yujinlong2002的博客

06-03

481

前言Jieba库是优秀的中文分词第三方库，中文文本需要通过分词获得单个的词语。Jieba库的分词原理：利用一个中文词库，确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。除了分词，用户还可以添加自定义的词组。

jieba textrank关键词提取 python_用Python，生活仍有诗和远方

weixin_39655377的博客

11-26

常听说，现在的代码，就和唐朝的诗一样重要。可对我们来说，写几行代码没什么，但是，要让我们真正地去写一首唐诗，那可就头大了。。既然如此，为何不干脆用代码写一首唐诗？准备：python3.6环境推荐使用anaconda管理python包，可以对于每个项目，创建环境，并在该环境下下载项目需要的包。推荐使用pycharm作为编译器。GitHub代码：theodore3131/TangshiGenerato...

jieba textrank关键词提取 python_NLP笔记之正则表达式与jieba分词

weixin_39841709的博客

11-24

517

本文介绍自然语言处理的基础操作，主要为正则表达式和jieba分词，整理来自B站https://www.bilibili.com/video/BV1is411E7vR?from=search&seid=17199998704756408851正则表达式Python re库有正则表达式# encoding: UTF-8import re# 将正则表达式编译成Pattern对象，写到r...

jieba textrank关键词提取 python_Jieba库基本用法

weixin_39908082的博客

11-29

1467

关注上方蓝字关注我们01特点(一)支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率。适合用于搜索引擎分词。(二)支持繁体分词(三)支持自定义分词(四)MIT授权协议02主要功能1.分词jieba.cut方法接受三个输入参数：需要分词...

手写Hadoop MapReduce实现TF-IDF教程

- 某教程：是本MapReduce实现TF-IDF的参考源，可能包括具体的代码实现细节和优化技巧。 ### 结语以上知识点覆盖了使用Hadoop MapReduce实现TF-IDF算法所需的基本理论、实施步骤以及常见问题处理。通过深入学习这些...