提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
提示:这里可以添加本文要记录的大概内容:
第一次写博客,记录一下今年市调大赛制作词云图的流程和代码,作为学校的独苗参加省决赛,最后也是遗憾止步国三
—
当天去的湖star答辩,所有老师都很友好哈哈哈
一、前期准备
需要安装好jieba、numpy、PIL、wordcloud库,以及爬虫或其他手段收集到的文本数据,以我们比赛中对长沙旅游地的旅客评论为例。
二、使用步骤
1.引入库
代码如下:
import jieba
import numpy as np
from PIL import Image
from wordcloud import WordCloud
2.读入数据
代码如下:
def change(txt):
words = jieba.lcut(txt)
newtxt = ''.join(words)
return newtxt
f = open('长沙.txt','r',encoding = 'utf-8')
txt = f.read()
f.close()
txt = change(txt)
使用jieba库进行分词处理,并将分词后的结果存储在变量txt中
3.绘制词云图
代码如下:
pinbi = {'收起d','这是什么','长沙超话','长沙旅游','长沙旅游攻略','我吃一口','咦','2长沙','带着微博去旅行','长沙旅游超话','张艺兴超话'}
mask = np.array(Image.open("湖南1.jpg"))
wordcloud = WordCloud(background_color="white", width=2500, height=3000, scale=20,max_words=1000,\
max_font_size=150, mask=mask, contour_width=4, stopwords=pinbi,\
contour_color='black', font_path="STXINGKA.TTF")\
.generate(txt)
wordcloud.to_file('changsha.png')
网上找的湖南省轮廓图
屏蔽掉一些无意义的评论及词语,然后利用wordcloud库生成词云,其中height,width,scale参数用来调节最后生成的词云图清晰度。湖南1.jpg是网上下载的湖南省轮廓图,最后生成的长沙游客词云图保存为changsha。png。
最后生成的词云图
一些其他的图也是按这个代码生成的
总结
简单记录研究生第一次比赛的成果,有市调比赛或其他比赛想做高清轮廓词云图的可以参考此代码~