我用了两种方案来分词:
1.结巴分词:写了程序遍历导出的聊天语句,对message进行分词,然后将所有词都append到一个大的list中输出;
2.spark tokenizer:select tokenizer(Message) as tmp from tb, 这个语句就能得到关键词的list;
绘图我用的牛x的bdp个人版,步骤如下:
a.选择一张工作表;
b.新建图表;
c.拖入关键词的字段到维度;
d.选择图表类型为词云;
d.done!
ps: bdp的词云有智能分词功能,可以将整句放在字段中,用bdp的智能分词来分词。
附图是用bdp做的词云: