【Python Scrapy 爬虫框架】 6、继续爬虫、终止和重启任务

最新推荐文章于 2021-10-01 15:44:26 发布

TeamsSix

最新推荐文章于 2021-10-01 15:44:26 发布

阅读量967

点赞数

分类专栏：学习笔记文章标签： python

本文链接：https://blog.csdn.net/qq_37683287/article/details/103719073

版权

本文介绍了如何在Python Scrapy爬虫框架中进行持续爬取和终止任务。通过修改teamssix_blog_spider.py文件的start_urls，添加回调函数self.sub_article，实现对多个页面的爬取。运行代码后，成功从start_urls获取了43篇文章。完整的Scrapy学习项目代码已上传至GitHub。

摘要由CSDN通过智能技术生成

0x00 前言

有时候我们不想只爬一个页面的，比如之前我只爬了主页，但是现在想把其他页面的也爬下来，这就是本文的任务。

0x01 修改代码

在之前的基础上，修改 teamssix_blog_spider.py 文件，首先添加 start_urls

start_urls = [
   'https://www.teamssix.com',
   'https://www.teamssix.com/page/2/',
   'https://www.teamssix.com/page/3/',
   'https://www.teamssix.com/page/4/',
   'https://www.teamssix.com/page/5/'
]

接下来在 sub_article 函数尾部添加 parse 函数的全部代码

soup = BeautifulSoup(response.text, 'html.parser'

最低0.47元/天解锁文章

TeamsSix

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Python Scrapy 爬虫框架】 6、继续爬虫、终止和重启任务

0x00 前言有时候我们不想只爬一个页面的，比如之前我只爬了主页，但是现在想把其他页面的也爬下来，这就是本文的任务。0x01 修改代码在之前的基础上，修改 teamssix_blog_spider.py 文件，首先添加 start_urlsstart_urls = [ 'https://www.teamssix.com', 'https://www.teamssix.com/p...
复制链接

扫一扫

专栏目录