基于python中jieba包的中文分词中详细使用（二）

最新推荐文章于 2024-08-07 09:51:43 发布

智绘山河

最新推荐文章于 2024-08-07 09:51:43 发布

阅读量2.2w

点赞数 21

分类专栏： Natural Language Processing Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/meiqi0538/article/details/80218870

版权

Natural Language Processing 同时被 2 个专栏收录

33 篇文章 43 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

36 篇文章 7 订阅

订阅专栏

本文详细介绍了基于python的jieba包在中文分词中的高级用法，包括利用TF-IDF算法进行关键词提取，词性标注，平行分词，Tokenize获取词语位置，以及如何进行延迟加载和使用其他词典，适用于自然语言处理和文本分析场景。

摘要由CSDN通过智能技术生成

文章目录

基于python中jieba包的中文分词中详细使用（二）
01.前言
02.关键词提取
03.延迟加载
04.其他词典
写在最后

基于python中jieba包的中文分词中详细使用（二）

01.前言

在基于python中jieba包的中文分词中详细使用（一）已经介绍了jieba分词的一些基本内容，现在接着去介绍。

02.关键词提取

02.01基于TF-IDF算法的关键词提取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,
allowPOS=())
其中需要说明的是：
1.sentence 为待提取的文本
2.topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
3.withWeight 为是否一并返回关键词权重值，默认值为 False
4.allowPO

了解本专栏

超级会员免费看

关注

21
点赞
踩
139

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

智绘山河 你的鼓励可能解决你下一个问题

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。