上次已经从豆瓣小组上爬取到了很多租房信息,但是标题大家都没有统一的规范,所以想通过统计词频来看看有什么关键字,看能不能利用统计出来的关键字对标题信息进行筛选提取。
在找词频统计的时候看到了,居然有一个词云图的东西。
这么好玩的东西当然不能错过啦。赶紧试试看先。
这次生成词云图真的是拢共分三步。
第一步:读取文本信息
第二步:用分词工具进行分词
第三步:用词云图库输出词云图
from wordcloud import WordCloud, ImageColorGenerator # 词云库,生成词云的主要工具
import matplotlib.pyplot as plt # 2D绘图套件
from PIL import Image # 图像生成需要的图像套件
import numpy as np # numpy计算工具
import pandas as pd # 数据分析工具
import jieba # 分词库,中文分词工具
excel_path = 'F:\SY\Python\douban_project\douban_baoan.xlsx' #获取数据,并将数据转换成string格式
d = pd.read_excel(excel_path)
text = str(d['title'])
cut_text = jieba.cut(text) # 用jieba对