Python爬虫爬取懂球帝足球新闻（分类，分标签，多页，存数据库，去重）

最新推荐文章于 2025-03-14 10:13:37 发布

HBLQ_GK

最新推荐文章于 2025-03-14 10:13:37 发布

阅读量4.7k

点赞数 2

分类专栏： Python爬虫文章标签： Python 网络爬虫

本文链接：https://blog.csdn.net/heibuliuqiu_gk/article/details/102538351

版权

本文介绍了如何使用Python爬虫爬取懂球帝网站上的英超、西甲、意甲和德甲新闻。首先分析英超新闻的页面结构，找到JSON数据源，然后通过遍历JSON数据获取每一页的新闻链接。接着，过滤非新闻链接并存储到数据库，通过新闻链接抓取详情页内容，包括标题、作者、发布时间、正文和多媒体资源。最后，实现循环遍历多个联赛的新闻，完善爬虫功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫目标网址：https://www.dongqiudi.com/news

打开网址后向下滑动看到我即将爬取的国际新闻板块

咦？说好的五大联赛的呢？看不起法甲？好吧，将就一下，就爬取“欧洲四大联赛的新闻”：英超，西甲，意甲，德甲。这四个小板块的结构肯定都是一样的，所以我们分析一个就可以了，这里以英超为例。点开英超新闻板块

向下滑动新闻列表，可以看到加载下一页的按钮

点击即加载下一页，打开控制台可以看到从第二页开始的新闻列表都是以JSON文件返回的

同时可以在JSON文件中发现下一页和上一页的链接，这就好办了，我们现在可以梳理一种思路：先获取英超新闻列表页的第一页JSON文件信息，从中提取所有新闻信息，然后再获取下一列表页的链接，然后再像获取第一页那样获取JSON文件，如此循环，就可以获取很多页的新闻信息。

可能有人会说，这里明明是从第二页开始才是用JSON文件返回的，而第一页是一开始就渲染好的，怎么第一页也会有JSON文件呢？至于这个问题，试试就知道了。

先来看看获取第二页JSON文件信息的链接

把这个url搞到，然后到浏览器请求看看

卧槽，这是啥？好吧，我们换一种方式

import json

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64'
                  ') AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
}

url = 'https://www.dongqiudi.com/api/app/tabs/web/3.json?after=1570952172&page=2'

json_data = requests.get(url, headers=headers)
data = json.loads(json_data.text)
for k, v in data.items():
    print(k, ':', v)

我们用requests来请求该链接，然后将获取的JSON数据转换成Python中的字典，然后对字典进行遍历解析，得到如下内容：