jieba库词频统计_Jieba分词词频统计绘制词云图Wordcloud套图(2018-11-03)

import jieba

from wordcloud import WordCloud

import matplotlib.pyplot as plt

#AI2017.txt来自http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm

with open('AI2017.txt', 'r') as f:

renmin=f.read()

jieba.load_userdict("AIDict.txt")  #添加词典

seg_list = jieba.cut(renmin, cut_all=False) #分词

tf = {}                  #统计词频

for seg in seg_list:

if seg in tf:    # 如果该键在集合tf的对象中,则该键所属对象值加1

tf[seg] +=1

else:            #否则,生成新词的键值对,初始值为1

tf[seg] = 1

ci=list(tf.keys())        #将字典的健值转为列表

with open('stopword.txt','r') as ft:

stopword=ft.read()

for seg in ci:

if tf[seg]<5 or len(seg)<2 or seg in stopword or '一'in seg:

tf.pop(seg)

#print(tf)

#统计词频后绘制词云图

f

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值