python做词云同一词汇出现了两次_作图详解 | 利用python绘制词云

最新推荐文章于 2024-04-13 19:28:49 发布

桔了个仔

最新推荐文章于 2024-04-13 19:28:49 发布

阅读量2.7k

点赞数

文章标签： python做词云同一词汇出现了两次

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35286433/article/details/112010823

版权

本文介绍了如何使用Python的wordcloud和pyecharts库创建词云，通过对专利摘要进行分析，提取高频词汇。文章详细阐述了扩展包安装、文件读取、数据统计与过滤、以及两种方式的词云绘制过程，包括自定义停用词的处理。

摘要由CSDN通过智能技术生成

“词云”是对文本中出现频率较高的“关键词”予以视觉上的突出的一种可视化手段，形成“关键词云层”或“关键词渲染”，使浏览者只要一眼扫过词云图片就可以了解文本中被重复频率最高的词汇，从而得知庞大的文本背后的核心内容。今天，小编尝试使用python对某一领域专利中的英文摘要进行分析，找出其中出现频率较高的词汇绘制成词云，以展示该领域的核心技术。

1.扩展包的安装

我们使用python的wordcloud库和pyecharts库来以两种方式实现词云。从文本中的句子里分割出词汇的工作使用python的分词库jieba(结巴分词)来实现。我们认为文本中的名词词汇较为重要，其他词性的词汇暂时需要过滤，因此我们需要对单词的词性进行分析。分析单词词性需要使用python的自然语言处理库nltk。Anaconda内置了nltk扩展包，需要小伙伴们打开anaconda的promt，输入以下命令安装wordcloud

pip install wordcloud

pip install jieba

2.文件的读取

使用的数据来源为导出的excel文件，文件中包含“摘要”一列，例如下图：

首先使用pandas扩展包对该文件的摘要一列进行读取，采用结巴分词对读取后的文本进行分割，将句子转化为词汇，通过nltk扩展包对词汇的词性进行分析，并标记每个词的词性。

3.数据统计与滤除

接下来，对每个词汇的出现次数进行计算，将结果存放在字典中并对字典进行排序。

尽管nltk帮助我们剔除了一些不关心的词，依

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python做词云同一词汇出现了两次_作图详解 | 利用python绘制词云

“词云”是对文本中出现频率较高的“关键词”予以视觉上的突出的一种可视化手段，形成“关键词云层”或“关键词渲染”，使浏览者只要一眼扫过词云图片就可以了解文本中被重复频率最高的词汇，从而得知庞大的文本背后的核心内容。今天，小编尝试使用python对某一领域专利中的英文摘要进行分析，找出其中出现频率较高的词汇绘制成词云，以展示该领域的核心技术。1.扩展包的安装我们使用python的wordcloud库和...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。