准备工作
抓取数据存到txt文档中,了解jieba
问题
jieba分词分的不太准确,比如机器学习会被切成机器和学习两个词,使用自定义词典,原本的想法是只切出自定义词典里的词,但实际上不行,所以首先根据jieba分词结果提取出高频词并自行添加部分词作为词典,切词完毕只统计自定义词典里出现过的词
wordcloud自身不支持中文词云,需要指定中文字体,并且现在大部分的博客提供的generate_from_frequencies方法的参数与现在的wordcloud的参数不同,现在这个方法接收的是dict类型
代码
# -*- coding: utf-8 -*-
import jieba
import os
import codecs
from scipy.misc import imread
import matplotlib as mpl
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
class GetWords(object):
def __init__(self, dict_name, file_list , dic_list):
self.dict_name = dict_name
self.file_list = file_list
self.dic_list = dic_list
#获取自定义词典
def get_dic(self):
dic = open(self.dict_name, 'r