分词的应用场景还是蛮多的,比如电商里面的产品用户评价,每个商品的评价数很多,由于是大量的文本,需要从这些文本找出评价的关键字,这个时候分词就能派上用场;再比如,做文本分析,热点词统计都会用到分词。
整体思路就是利用python中的jieba库,对每一行文字进行分词处理,处理之后的结果放在list(列表)中。遍历列表,重复的值就计数,留下唯一的值作为key。
引用库
import jieba #分词
import xlwt #Excel库
import pandas as pd #pandas库
import matplotlib as mpl #matplotlib库由各种可视化类构成
from wordcloud import WordCloud #词云
import matplotlib.pyplot as plt #matplotlib.pyplot是绘制各类可视化图形的命令字库,相当于快捷方式
配置
mpl.rcParams["font.sans-serif"] = ['Microsoft YaHei']#配置字体
plt.rcParams["axes.labelsize"] = 16 #轴域大小
plt.rcParams["xtick.labelsize"] =14 #x轴字体大小
plt.rcParams["ytick.labelsize"] =14 #y轴字体大小
plt.rcParams["legend.fontsize"]=12 #图例字体大小
plt.rcPara