python提取字符串中的单词_python中用jieba实现中文分词，并提取高频词汇

最新推荐文章于 2023-04-17 08:30:00 发布

weixin_39716800

最新推荐文章于 2023-04-17 08:30:00 发布

阅读量1.3k

点赞数 1

文章标签： python提取字符串中的单词

目的：实现中文分词，并提取高频词汇

一、实现的效果

初始的文本（wenben1.text）是网上随便复制的一段文本，主要内容如图所示：

实现分词后的文本（wenben2.text）：

提取频率最高的10个词汇，显示结果如下：

二、代码

#! -*- coding:utf-8 -*-

import jieba

import jieba.analyse

# 待分词的文本路径

sourceTxt = 'wenben1.txt '

# 分好词后的文本路径

targetTxt = 'wenben2.txt'

with open(sourceTxt, 'r') as sourceFile, open(targetTxt, 'a+') as targetFile:

for line in sourceFile:

seg = jieba.cut(line.strip(), cut_all = False)

# 分好词之后之间用空格隔断

output = ' '.join(seg)

targetFile.write(output)

targetFile .write('\n')

print('写入成功！')

with open(targetTxt, 'r') as file:

text = file.readlines()

"""

几个参数解释：

* text : 待提取的字符串类型文本

* topK : 返回TF-IDF权重最大的关键词的个数，默认为20个

* withWeight : 是否返回关键词的权重值，默认为False

* allowPOS : 包含指定词性的词，默认为空

"""

keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())

print(keywords)

print('提取完毕！')

weixin_39716800

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python提取字符串中的单词_python中用jieba实现中文分词，并提取高频词汇

目的：实现中文分词，并提取高频词汇一、实现的效果初始的文本（wenben1.text）是网上随便复制的一段文本，主要内容如图所示：实现分词后的文本（wenben2.text）：提取频率最高的10个词汇，显示结果如下：二、代码#! -*- coding:utf-8 -*-import jiebaimport jieba.analyse# 待分词的文本路径sourceTxt = 'wenben1.tx...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。