本文讨论如何使用python的 pytagcloud 模块制作中文标签云图片和html文件。 如果你只是为了搜索到如何用python制作中文标签云,请跳过缘起和爬取文本数据部分从 标签云部分 看起: 缘起 学习scrapy,顺便就拿byr做了实验,异步强大的吞吐能力看的目瞪口呆。
本文讨论如何使用python的pytagcloud模块制作中文标签云图片和html文件。
如果你只是为了搜索到如何用python制作中文标签云,请跳过缘起和爬取文本数据部分从标签云部分看起:
缘起
学习scrapy,顺便就拿byr做了实验,异步强大的吞吐能力看的目瞪口呆。看到scrapy官网说到scrapy就是抽取网页中的元数据用以数据分析等作用,想了想就做做版面标签云分析吧。
另一方面,R语言课上老师讲到文本分析,R语言那些包对中文的支持真是不错。为什么Python没有支持中文的包呢?我试着搜索了下,都是提问如何使用的而没有任何具体解决方案。不由得感慨还是R的社区在文本分析领域活跃。
爬取文本数据
首先要获取生成标签云的原始数据。什么都行,直接拿篇中文文章都可以,不过我这里是爬取byr论坛某些板块的标题数据。
scrapy从网页抽取数据的能力相当强大,我在这里第一次体验到了xpath的方便之处,从此,即使是一些简单的网页任务也会用lxml来使用xpath。
在firebug里简单分析下,然后一页一页地请求网页然后抽取标题。再合成一个单独的文本。
标签云部分
需要以下先决条件:
确保安装pytagcloud,pip会顺便帮你帮它的依赖都装上
pip install --user pytagcloud</