jieba.analyse的使用：提取关键字

最新推荐文章于 2025-04-03 18:09:19 发布

牧羊人sss

最新推荐文章于 2025-04-03 18:09:19 发布

阅读量1w

点赞数 5

分类专栏： Python数据分析

原文链接：https://blog.csdn.net/Dorisi_H_n_q/article/details/82114649

版权

Python数据分析专栏收录该内容

6 篇文章

订阅专栏

① jieba.analyse.extract_tags 提取关键字：
第一个参数：待提取关键词的文本
第二个参数：返回关键词的数量，重要性从高到低排序
第三个参数：是否同时返回每个关键词的权重
第四个参数：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词

print("***案例1***"*3)
txt='那些你很冒险的梦，我陪你去疯，折纸飞机碰到雨天终究会坠落，伤人的话我直说，因为你会懂，冒险不冒险你不清楚，折纸飞机也不会回来，做梦的人睡不醒！'
Key=jieba.analyse.extract_tags(txt,topK=3)
print(Key)
#-----------------------------------------------------------------------------------
print("***案例2***"*3)
# 字符串前面加u表示使用unicode编码
import jieba.analyse

content = u'《小丑》全球票房已经超过十亿美元，成为全球首部达到这个成绩的R级电影。而其自身出色的投资回报率也让其成为史上盈利数最高的“超英漫改”作品。而在几个月前，它更加夺目的一项荣耀则是首部获得威尼斯电影节最高荣誉奖的“主流”“超英漫改”作品。'
# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 第四个参数：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词
keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())
print(keywords)

输出结果：
key:
在这里插入图片描述
keywords:

② jieba.analyse.textrank 提取关键字：


# 同样是四个参数，但allowPOS默认为('ns', 'n', 'vn', 'v')
# 即仅提取地名、名词、动名词、动词
keywords = jieba.analyse.textrank(content, topK=5, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
# 访问提取结果
keywords