0x00 前言
有时候我们不想只爬一个页面的,比如之前我只爬了主页,但是现在想把其他页面的也爬下来,这就是本文的任务。
0x01 修改代码
在之前的基础上,修改 teamssix_blog_spider.py 文件,首先添加 start_urlsstart_urls = [ 'https://www.teamssix.com', 'https://www.teamssix.com/page/2/', 'https://www.teamssix.com/page/3/', 'https://www.teamssix.com/page/4/', 'https://www.teamssix.com/page/5/']
接下来在 sub_article 函数尾部添加 parse 函数的全部代码soup = BeautifulSoup(response.text, 'html.parser')for i in soup.select('.post-title'):
url = 'https://www.teamssix.com{}'.format(i['href']) yield scrapy.Request(url, callback=self.sub_article)
所以 sub_article 函数的完整代码就是这个样子:def sub_article(self,response):
soup = BeautifulSoup(response.text,'html.parser')
title = self.article_title(soup)
list = self.article_list(soup)
<