为什么需要生成词云
对于文本数据有个直观的了解,为后续的工作提供一定的数据可视化分析依据。
词云的生成步骤:
- 导入工具库
- 读取数据
- 清洗数据
- 统计词频保留前K个词作为词云生成库
- 绘制词云图
导入工具库
import warnings
warnings.filterwarnings('ignore')
import jieba
import numpy
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10,5)
from wordcloud import WordCloud
读取数据
df = pd.read_csv("./entertainment_news.csv", encoding='utf-8')
清洗数据
使用结巴分词