python 标签云_Python中文标签云之pytagcloud

本文讨论如何使用python的 pytagcloud 模块制作中文标签云图片和html文件。 如果你只是为了搜索到如何用python制作中文标签云,请跳过缘起和爬取文本数据部分从 标签云部分 看起: 缘起 学习scrapy,顺便就拿byr做了实验,异步强大的吞吐能力看的目瞪口呆。

本文讨论如何使用python的pytagcloud模块制作中文标签云图片和html文件。

如果你只是为了搜索到如何用python制作中文标签云,请跳过缘起和爬取文本数据部分从标签云部分看起:

缘起

学习scrapy,顺便就拿byr做了实验,异步强大的吞吐能力看的目瞪口呆。看到scrapy官网说到scrapy就是抽取网页中的元数据用以数据分析等作用,想了想就做做版面标签云分析吧。

另一方面,R语言课上老师讲到文本分析,R语言那些包对中文的支持真是不错。为什么Python没有支持中文的包呢?我试着搜索了下,都是提问如何使用的而没有任何具体解决方案。不由得感慨还是R的社区在文本分析领域活跃。

爬取文本数据

首先要获取生成标签云的原始数据。什么都行,直接拿篇中文文章都可以,不过我这里是爬取byr论坛某些板块的标题数据。

scrapy从网页抽取数据的能力相当强大,我在这里第一次体验到了xpath的方便之处,从此,即使是一些简单的网页任务也会用lxml来使用xpath。

在firebug里简单分析下,然后一页一页地请求网页然后抽取标题。再合成一个单独的文本。

标签云部分

需要以下先决条件:

确保安装pytagcloud,pip会顺便帮你帮它的依赖都装上

pip install --user pytagcloud</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值