python生成停词表_Python jieba 去除停用词 生成词云图

读写文件

把待读取的文本存在info.txt中,content类型为str

with open('info.txt', 'r', encoding="UTF-8") as file1: # with as操作读取文件很ok

content = "".join(file1.readlines())

待写入文件为 output.txt,content_after为待写入字符串

with open('output.txt', 'w', encoding='utf-8') as file2:

file2.write(content_after+"\n")

分词

# 调用jieba.cut

sentence_seged = jieba.cut(content)

去除停用词

建立停用词表

将停用词表放在stop.txt中,一行一个词

# stopwords为停用词list

stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='utf-8').readlines()]

遍历去除停用词

outstr = '' # 待返回字符串

for word in sentence_seged:

if word not in stopwords:

outstr += word + " "

生成词云图

images = Image.open("something.png") # 打开保存的图片

maskImages = np.array(images) # 并用numpy转换

wc = WordCloud(font_path="msyh.ttc", background_color="white", max_words=100, max_font_size=100).generate(content_after) # 生成词云图

wc.to_file('wordCloudPic.png') # 保存到本地图片文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值