爬取用户信息和观看人数
摘要:
此篇文章主要是对Ajax和json两个的练习。如何抓取异步加载的网站以及返回的json数据的提取。
目标站点网站:https://www.douyu.com/g_LOL
分析:
打开网址,进行翻页的时候,发现头部的URL不变化,分析后台请求发现如下需要的数据都在如下图所示里面的response,切都是json格式。
分析请求url,发现是采用get的方式请求,翻页后发现变化的只是最后一位数字,故只需要构造url,通过改变url就可以爬取需要的数据了。
for x in rang(1,10):
url = 'https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(x)
代码如下:
import requests
import json
import time
import csv
def parse_page_detail(response):
html_json = json.loads(response.text)
# 从返回的json数据中提取出需要的数据
infos = html_json['data']['rl']
for info in info