前言
爬虫Spider讲解,将以爬取SEU大学官网新闻为例
提示:以下是本篇文章正文内容,下面案例可供参考
一、爬虫整体流程
- 分析SEU官网新闻页面
- 分析具体新闻页面
- 爬取存储mongoDB数据库
二、具体步骤
1.分析SEU官网新闻页面
发现新闻网分为了多个栏目(头条新闻、东大要闻 … \dots …)
代码如下(示例):
def getLinksList(self, url):
"""
given a sourceUrl,get all news urls
:param url:新闻源链接,及各个板块新闻首页
:return: linksList
"""
urls = []
response = requests.