Python爬虫爬取懂球帝足球新闻(分类,分标签,多页,存数据库,去重)

本文介绍了如何使用Python爬虫爬取懂球帝网站上的英超、西甲、意甲和德甲新闻。首先分析英超新闻的页面结构,找到JSON数据源,然后通过遍历JSON数据获取每一页的新闻链接。接着,过滤非新闻链接并存储到数据库,通过新闻链接抓取详情页内容,包括标题、作者、发布时间、正文和多媒体资源。最后,实现循环遍历多个联赛的新闻,完善爬虫功能。
摘要由CSDN通过智能技术生成

爬虫目标网址:https://www.dongqiudi.com/news

打开网址后向下滑动看到我即将爬取的国际新闻板块

咦?说好的五大联赛的呢?看不起法甲?好吧,将就一下,就爬取“欧洲四大联赛的新闻”:英超,西甲,意甲,德甲。这四个小板块的结构肯定都是一样的,所以我们分析一个就可以了,这里以英超为例。点开英超新闻板块

向下滑动新闻列表,可以看到加载下一页的按钮

点击即加载下一页,打开控制台可以看到从第二页开始的新闻列表都是以JSON文件返回的 

同时可以在JSON文件中发现下一页和上一页的链接,这就好办了,我们现在可以梳理一种思路:先获取英超新闻列表页的第一页JSON文件信息,从中提取所有新闻信息,然后再获取下一列表页的链接,然后再像获取第一页那样获取JSON文件,如此循环,就可以获取很多页的新闻信息。

可能有人会说,这里明明是从第二页开始才是用JSON文件返回的,而第一页是一开始就渲染好的,怎么第一页也会有JSON文件呢?至于这个问题,试试就知道了。

先来看看获取第二页JSON文件信息的链接

把这个url搞到,然后到浏览器请求看看

卧槽,这是啥?好吧,我们换一种方式

import json

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64'
                  ') AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
}

url = 'https://www.dongqiudi.com/api/app/tabs/web/3.json?after=1570952172&page=2'

json_data = requests.get(url, headers=headers)
data = json.loads(json_data.text)
for k, v in data.items():
    print(k, ':', v)

我们用requests来请求该链接,然后将获取的JSON数据转换成Python中的字典,然后对字典进行遍历解析,得到如下内容:

我们可以看到很多关键信息,这里我们主要关心的是当前页数,page=2,而如果我们需要获取第一页的JSON数据呢?看看请求链接的规律

https://www.dongqiudi.com/api/app/tabs/web/3.json?after=1570952172&page=2

观察链接,可以看出,那个数字3就是id(表示当前是英超新闻,和label对应),after这个参数应该是个时间戳&#

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值