文本挖掘桌面文档,形成词频统计和词云制作

本文详细介绍了如何在Python中进行文本处理,包括导入库、读取数据、分词、去除停用词、自定义词库、词频统计和词云生成的过程。
摘要由CSDN通过智能技术生成

手把手教学:

首先python中导入需要用的库:

如果有的库没下载,针对windows可以在cmd中导入pip install +需要的库;或者直接在python终端导入。

由于我的数据文本集(ww)、停用词文档(stopwords)、专用词文档(dic)都直接放在桌面,所以开始导入桌面路径(读着只需要在桌面创建自己的txt文档,然后替换掉代码中的三个文档即可):

然后开始读取数据文本集:

读取和加载停用词文本集:

由于在jieba分词词库中只有常见类型的词,但针对专业领域的词频统计和词云显示的时候就需要用到专业词库(自定义词库),以下是加载自定义分词词库:

下一步是可以读取同义词词库(不需要可以忽略此步骤),这里建议直接在python中使用synoym_dict函数:

然后进行文本分词,采用jieba分词库,并过滤掉停用词:

下一步就是将分词所得到的文本结果转换成字符串:

然后就可以进行词频统计了:

如果需要词频降序排列,则需要加入一行代码:

最后则是打印词频统计结果和生成词云图,并且显示出来:

以上就是瓷瓶统计和词云显示的全部!欢迎点赞收藏。

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值