Python爬虫豆瓣网热门话题保存文本本地数据,并实现简单可视化。
前言
今天给大家分享Python爬虫豆瓣网热门话题保存文本本地数据
开发环境:
windows10
python3.6.4
开发工具:
pycharm
库:
requests、WordCloud、pandas、jieba
代码展示
词云生成
爬虫代码过程
1、保存短评数据
通过浏览器“检查”分析,得到URL数据接口。在不断往下刷新页面的过程中,发现URL中只有“start”参数不断产生变化,依次为0,20,40,60,80—
同时,为了破解“豆瓣”的防爬虫机制,请求数据时需携带“请求头(headers)”中的“User-Agent”和“Referer”两个参数。
源码
import requests
for i in range(0,200,20):
# 通过浏览器检查,得到数据的URL来源链接
url = 'https://m.douban.com/rexxar/api/v2/gallery/topic/125573/items?' \
'sort=new&start={}&count=20&status_full_text=1&guest_only=0&ck=null'.format(i)
# 破解防爬虫,带上请求头
# 这两个不能省略
headers = {
'User-Agent':