对文本实现分词以及绘制词云

可以想象在这样一个场景里面,我们有成千上万的客户,比如做调查审批的时候,如果我们能拿到客户在某个社区下面的评论数据。
或者公司内部的邮件主题数据,我们需要知道这一段时间客户的沟通主要围绕着什么完成?

这里就可以对文本进行分词然后绘制词云,话不多说,我们开始。

1.导入数据和数据预处理

导入必要的库

import os
import re
import jieba
from stylecloud import gen_stylecloud

下面这段文字是从中国人民银行征信中心摘出来的简介。

In [3]:
with open ('data.txt') as f:
datastr = f.read()
In [4]:
datastr
Out[4]:
'2006年3月,经中编办批准,中国人民银行设立中国人民银行征信中心,作为直属事业单位专门负责企业和个人征信系统(即金融信用信息基础数据库,又称企业和个人信用信息基础数据库)的建设、运行和维护。同时为落实《物权法》关于应收账款质押登记职责规定,征信中心于2007年10月1日建成应收账款质押登记系统并对外提供服务。2008年5月,征信中心正式在上海举行了挂牌仪式,注册地为上海市浦东新区。2013年3月15日施行的《征信业管理条例》(简称《条例》),明确了征信系统是由国家设立的金融信用信息基础数据库定位。目前,征信中心在全国31个省和5个计划单列市设有征信分中心。\n\n   作为专业化征信机构,征信中心依法履职,积极推进征信系统建设,保障系统安全稳定运行,加快系统升级优化,深入推进服务转型,加强产品研发与应用,切实维护信息主体合法权益,充分发挥征信系统作为我国重要金融基础设施作用,为推动社会信用体系建设做出了积极的贡献。\n\n   建成全球规模最大的征信系统。1997年,人民银行开始筹建银行信贷登记咨询系统(企业征信系统的前身)。自2004年至2006年,人民银行组织金
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值