对文本实现分词以及绘制词云

凌岸_鸿

已于 2022-07-14 16:34:32 修改

阅读量690

点赞数

分类专栏：自然语言处理文章标签：中文分词 nlp

于 2022-07-14 16:28:34 首次发布

本文链接：https://blog.csdn.net/lingan_hong/article/details/125787299

版权

可以想象在这样一个场景里面，我们有成千上万的客户，比如做调查审批的时候，如果我们能拿到客户在某个社区下面的评论数据。
或者公司内部的邮件主题数据，我们需要知道这一段时间客户的沟通主要围绕着什么完成？

这里就可以对文本进行分词然后绘制词云，话不多说，我们开始。

1.导入数据和数据预处理

导入必要的库

import os
import re
import jieba
from stylecloud import gen_stylecloud

下面这段文字是从中国人民银行征信中心摘出来的简介。

In [3]:
with open ('data.txt') as f:
datastr = f.read()
In [4]:
datastr
Out[4]:
'2006年3月，经中编办批准，中国人民银行设立中国人民银行征信中心，作为直属事业单位专门负责企业和个人征信系统（即金融信用信息基础数据库，又称企业和个人信用信息基础数据库）的建设、运行和维护。同时为落实《物权法》关于应收账款质押登记职责规定，征信中心于2007年10月1日建成应收账款质押登记系统并对外提供服务。2008年5月，征信中心正式在上海举行了挂牌仪式，注册地为上海市浦东新区。2013年3月15日施行的《征信业管理条例》（简称《条例》），明确了征信系统是由国家设立的金融信用信息基础数据库定位。目前，征信中心在全国31个省和5个计划单列市设有征信分中心。\n\n   作为专业化征信机构，征信中心依法履职，积极推进征信系统建设，保障系统安全稳定运行，加快系统升级优化，深入推进服务转型，加强产品研发与应用，切实维护信息主体合法权益，充分发挥征信系统作为我国重要金融基础设施作用，为推动社会信用体系建设做出了积极的贡献。\n\n   建成全球规模最大的征信系统。1997年，人民银行开始筹建银行信贷登记咨询系统（企业征信系统的前身）。自2004年至2006年，人民银行组织金