新浪微博生成Wordcloud(词云)
1 前言
1.1 目的
本篇主要介绍新浪微博内容生成Wordcloud(词云),我举了一个炒鸡简单的例子。
1.2 工具
- Wordcloud 词云(
pip install wordcloud
安装即可) - jieba 分词(
pip install jieba
安装即可)
1.3 相关网址
Wordcloud API References:http://amueller.github.io/word_cloud/references.html
微博内容API:https://m.weibo.cn/api/container/getIndex?type=uid&value=2309846073&containerid=1076032309846073&page=1
2 过程
2.1 思路分析
- 爬取微博内容,这里爬取id为2309846073的大V,目标URL为https://m.weibo.cn/u/2309846073;
- 查看API,containerid固定为10760+uid,page递增即可,返回json数据;
- 引入Wordcloud模块,生成词云。
2.2 步骤
- 本人用Scrapy实现数据抓取,Spider下parse改写如下:
def parse(self, response):
json_body = json.loads(response.body)
data = json_body['da