可以想象在这样一个场景里面,我们有成千上万的客户,比如做调查审批的时候,如果我们能拿到客户在某个社区下面的评论数据。
或者公司内部的邮件主题数据,我们需要知道这一段时间客户的沟通主要围绕着什么完成?
这里就可以对文本进行分词然后绘制词云,话不多说,我们开始。
1.导入数据和数据预处理
导入必要的库
import os
import re
import jieba
from stylecloud import gen_stylecloud
下面这段文字是从中国人民银行征信中心摘出来的简介。
In [3]:
with open ('data.txt') as f:
datastr = f.read()
In [4]:
datastr
Out[4]:
'2006年3月,经中编办批准,中国人民银行设立中国人民银行征信中心,作为直属事业单位专门负责企业和个人征信系统(即金融信用信息基础数据库,又称企业和个人信用信息基础数据库)的建设、运行和维护。同时为落实《物权法》关于应收账款质押登记职责规定,征信中心于2007年10月1日建成应收账款质押登记系统并对外提供服务。2008年5月,征信中心正式在上海举行了挂牌仪式,注册地为上海市浦东新区。2013年3月15日施行的《征信业管理条例》(简称《条例》),明确了征信系统是由国家设立的金融信用信息基础数据库定位。目前,征信中心在全国31个省和5个计划单列市设有征信分中心。\n\n 作为专业化征信机构,征信中心依法履职,积极推进征信系统建设,保障系统安全稳定运行,加快系统升级优化,深入推进服务转型,加强产品研发与应用,切实维护信息主体合法权益,充分发挥征信系统作为我国重要金融基础设施作用,为推动社会信用体系建设做出了积极的贡献。\n\n 建成全球规模最大的征信系统。1997年,人民银行开始筹建银行信贷登记咨询系统(企业征信系统的前身)。自2004年至2006年,人民银行组织金