python提取字符串中的单词_python中用jieba实现中文分词,并提取高频词汇

目的:实现中文分词,并提取高频词汇

一、实现的效果

初始的文本(wenben1.text)是网上随便复制的一段文本,主要内容如图所示:

实现分词后的文本(wenben2.text):

提取频率最高的10个词汇,显示结果如下:

二、代码

#! -*- coding:utf-8 -*-

import jieba

import jieba.analyse

# 待分词的文本路径

sourceTxt = 'wenben1.txt '

# 分好词后的文本路径

targetTxt = 'wenben2.txt'

with open(sourceTxt, 'r') as sourceFile, open(targetTxt, 'a+') as targetFile:

for line in sourceFile:

seg = jieba.cut(line.strip(), cut_all = False)

# 分好词之后之间用空格隔断

output = ' '.join(seg)

targetFile.write(output)

targetFile .write('\n')

print('写入成功!')

with open(targetTxt, 'r') as file:

text = file.readlines()

"""

几个参数解释:

* text : 待提取的字符串类型文本

* topK : 返回TF-IDF权重最大的关键词的个数,默认为20个

* withWeight : 是否返回关键词的权重值,默认为False

* allowPOS : 包含指定词性的词,默认为空

"""

keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())

print(keywords)

print('提取完毕!')

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值