python 标签云_Python中文标签云之pytagcloud

Respect yourself

于 2021-03-01 14:15:56 发布

阅读量566

点赞数

文章标签： python 标签云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29216957/article/details/114914617

版权

本文讨论如何使用python的 pytagcloud 模块制作中文标签云图片和html文件。如果你只是为了搜索到如何用python制作中文标签云，请跳过缘起和爬取文本数据部分从标签云部分看起：缘起学习scrapy，顺便就拿byr做了实验，异步强大的吞吐能力看的目瞪口呆。

本文讨论如何使用python的pytagcloud模块制作中文标签云图片和html文件。

如果你只是为了搜索到如何用python制作中文标签云，请跳过缘起和爬取文本数据部分从标签云部分看起：

缘起

学习scrapy，顺便就拿byr做了实验，异步强大的吞吐能力看的目瞪口呆。看到scrapy官网说到scrapy就是抽取网页中的元数据用以数据分析等作用，想了想就做做版面标签云分析吧。

另一方面，R语言课上老师讲到文本分析，R语言那些包对中文的支持真是不错。为什么Python没有支持中文的包呢？我试着搜索了下，都是提问如何使用的而没有任何具体解决方案。不由得感慨还是R的社区在文本分析领域活跃。

爬取文本数据

首先要获取生成标签云的原始数据。什么都行，直接拿篇中文文章都可以，不过我这里是爬取byr论坛某些板块的标题数据。

scrapy从网页抽取数据的能力相当强大，我在这里第一次体验到了xpath的方便之处，从此，即使是一些简单的网页任务也会用lxml来使用xpath。

在firebug里简单分析下，然后一页一页地请求网页然后抽取标题。再合成一个单独的文本。

标签云部分

需要以下先决条件：

确保安装pytagcloud，pip会顺便帮你帮它的依赖都装上

pip install --user pytagcloud</

最低0.47元/天解锁文章

Respect yourself

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 标签云_Python中文标签云之pytagcloud

本文讨论如何使用python的 pytagcloud 模块制作中文标签云图片和html文件。如果你只是为了搜索到如何用python制作中文标签云，请跳过缘起和爬取文本数据部分从标签云部分看起：缘起学习scrapy，顺便就拿byr做了实验，异步强大的吞吐能力看的目瞪口呆。本文讨论如何使用python的pytagcloud模块制作中文标签云图片和html文件。如果你只是为了搜索到如何用pyt...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。