爬虫目标网址:https://www.dongqiudi.com/news
打开网址后向下滑动看到我即将爬取的国际新闻板块
咦?说好的五大联赛的呢?看不起法甲?好吧,将就一下,就爬取“欧洲四大联赛的新闻”:英超,西甲,意甲,德甲。这四个小板块的结构肯定都是一样的,所以我们分析一个就可以了,这里以英超为例。点开英超新闻板块
向下滑动新闻列表,可以看到加载下一页的按钮
点击即加载下一页,打开控制台可以看到从第二页开始的新闻列表都是以JSON文件返回的
同时可以在JSON文件中发现下一页和上一页的链接,这就好办了,我们现在可以梳理一种思路:先获取英超新闻列表页的第一页JSON文件信息,从中提取所有新闻信息,然后再获取下一列表页的链接,然后再像获取第一页那样获取JSON文件,如此循环,就可以获取很多页的新闻信息。
可能有人会说,这里明明是从第二页开始才是用JSON文件返回的,而第一页是一开始就渲染好的,怎么第一页也会有JSON文件呢?至于这个问题,试试就知道了。
先来看看获取第二页JSON文件信息的链接
把这个url搞到,然后到浏览器请求看看
卧槽,这是啥?好吧,我们换一种方式
import json
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64'
') AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
}
url = 'https://www.dongqiudi.com/api/app/tabs/web/3.json?after=1570952172&page=2'
json_data = requests.get(url, headers=headers)
data = json.loads(json_data.text)
for k, v in data.items():
print(k, ':', v)
我们用requests来请求该链接,然后将获取的JSON数据转换成Python中的字典,然后对字典进行遍历解析,得到如下内容:
我们可以看到很多关键信息,这里我们主要关心的是当前页数,page=2,而如果我们需要获取第一页的JSON数据呢?看看请求链接的规律
https://www.dongqiudi.com/api/app/tabs/web/3.json?after=1570952172&page=2
观察链接,可以看出,那个数字3就是id(表示当前是英超新闻,和label对应),after这个参数应该是个时间戳&#