jieba tfidf_【NLP】【三】jieba源码分析之关键字提取（TF-IDF/TextRank）

最新推荐文章于 2024-01-30 22:54:58 发布

火星种萝卜

最新推荐文章于 2024-01-30 22:54:58 发布

阅读量508

点赞数

分类专栏： NLP 文章标签：自然语言处理机器学习深度学习

原文链接：https://blog.csdn.net/weixin_31458015/article/details/115039076

版权

NLP 专栏收录该内容

247 篇文章 4 订阅

订阅专栏

【一】综述

利用jieba进行关键字提取时，有两种接口。一个基于TF-IDF算法，一个基于TextRank算法。TF-IDF算法，完全基于词频统计来计算词的权重，然后排序，在返回TopK个词作为关键字。TextRank相对于TF-IDF，基本思路一致，也是基于统计的思想，只不过其计算词的权重时，还考虑了词的上下文(通过窗口滑动来实现)，而且计算词的权重时，也考虑了相关联系词的影响。可以说，TextRank实际上是依据位置与词频来计算词的权重的。下面，结合基于jieba源码，来分别解释两种算法的实现。

【二】TF-IDF

1. 原理解析

假设，共有N篇文档，分别用 d1,d2,d3,,,,,,,dn来表示。

TF = 某个词在di篇文章中出现的次数/di篇文章的总词数 = count(W in di)/ count(di)。因此，TF计算的是单个词在单个文档中出现的词频。

IDF = 总的文档数 / 出现词W的文档数。 IDF其实反映了词W在文档之间的区别度。如果W在仅在一篇文档中出现，则说明可以使用W将该文档与其他文档区别开来。即IDF可以反映W的独特性。

TF*IDF，可以得到词的重要性。比如：北京和西安在同一篇文档中的词频均为20%，那如何估计北京是该文的关键字，还是西安呢？如果同时有10篇文章均提到了北京，恰好只有这篇文章提到了西安，则西安作为这篇文章的关键字更为合理。
————————————————
版权声明：本文为CSDN博主「王若然」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上https://blog.csdn.net/weixin_31458015/article/details/115039076

java jieba tfidf_【NLP】【三】jieba源码分析之关键字提取（TF-IDF/TextRank）_王若然的博客-CSDN博客

火星种萝卜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba tfidf_【NLP】【三】jieba源码分析之关键字提取（TF-IDF/TextRank）

【一】综述利用jieba进行关键字提取时，有两种接口。一个基于TF-IDF算法，一个基于TextRank算法。TF-IDF算法，完全基于词频统计来计算词的权重，然后排序，在返回TopK个词作为关键字。TextRank相对于TF-IDF，基本思路一致，也是基于统计的思想，只不过其计算词的权重时，还考虑了词的上下文(通过窗口滑动来实现)，而且计算词的权重时，也考虑了相关联系词的影响。可以说，TextRank实际上是依据位置与词频来计算词的权重的。下面，结合基于jieba源码，来分别解释两种算法的实现。【
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。