手把手教学:
首先python中导入需要用的库:
如果有的库没下载,针对windows可以在cmd中导入pip install +需要的库;或者直接在python终端导入。
由于我的数据文本集(ww)、停用词文档(stopwords)、专用词文档(dic)都直接放在桌面,所以开始导入桌面路径(读着只需要在桌面创建自己的txt文档,然后替换掉代码中的三个文档即可):
然后开始读取数据文本集:
读取和加载停用词文本集:
由于在jieba分词词库中只有常见类型的词,但针对专业领域的词频统计和词云显示的时候就需要用到专业词库(自定义词库),以下是加载自定义分词词库:
下一步是可以读取同义词词库(不需要可以忽略此步骤),这里建议直接在python中使用synoym_dict函数:
然后进行文本分词,采用jieba分词库,并过滤掉停用词:
下一步就是将分词所得到的文本结果转换成字符串:
然后就可以进行词频统计了:
如果需要词频降序排列,则需要加入一行代码:
最后则是打印词频统计结果和生成词云图,并且显示出来:
以上就是瓷瓶统计和词云显示的全部!欢迎点赞收藏。