文本生成词云图wordcloud

本片文章记录的是帮助农业专业的研究生做一篇关于中国农业政策的毕业发表论文,论文要求对之一是对每个省的农业政策进行词云图的实现,以便直观看出来每篇政策中的出现频率比较高的关键词,以便帮助她进行比较出不同及相同的一些特点。这里记录了使用中文分词对文章进行处理并分词,最后生成词云图。

1.安装  jieba :pip install jieba   pip install re

text = """  """ 一串待处理的文本

2.文本预处理

  1.使用正则表达式去除文本中的无用字符及特殊符号

import re
import jieba
# wenben
pattern = re.compile(u'[a-zA-Z\u4E00-\u9FA5]')
pattern1 = re.compile(r'[0-9]')
d = pattern.findall(text.encode('utf8').decode('utf8'))
print("".join(d))

  2.使用文件保存处理过的纯净文本

with open('fil_text.txt', 'w', encoding='utf8')as f:
    f.write("".join(d))

  3. 使用结巴分词全模式进行文本处理,保存为一个个以空格分隔的词语

with open('fil_text.txt', 'r', encoding='utf8')as f:
    data = f.readlines()
    s = jieba.cut(data[0], cut_all=True)
    for t in s:
        with open('result.txt','a+',encoding='utf8')as g:
            g.write(t+' ')
            print(t)

  4.处理过的文本信息,保存到txt文件

    for t in s:
        with open('result.txt','a+',encoding='utf8')as g:
            g.write(t+' ')
            print(t)

3.词云生成,并保存为图片

f = open('./result.txt', 'r',encoding='utf8').read()  # 生成词云的文档
wordcloud = WordCloud(
    background_color='white',  # 背景颜色,根据图片背景设置,默认为黑色
    # mask = backgroup_Image, #笼罩图
    font_path='./msyh.ttc',  # 若有中文需要设置才会显示中文
    width=1000,
    height=860,
    max_words=100,
    margin=2).generate(f)  # generate 可以对全部文本进行自动分词
# 参数 width,height,margin分别对应宽度像素,长度像素,边缘空白处

plt.imshow(wordcloud)
plt.axis('off')
plt.show()

# 保存图片:默认为此代码保存的路径
wordcloud.to_file('touxiang.jpg')

4.完成文本的 词语生成!

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值