0x00 前言
有时候我们不想只爬一个页面的,比如之前我只爬了主页,但是现在想把其他页面的也爬下来,这就是本文的任务。
0x01 修改代码
在之前的基础上,修改 teamssix_blog_spider.py 文件,首先添加 start_urls
start_urls = [
'https://www.teamssix.com',
'https://www.teamssix.com/page/2/',
'https://www.teamssix.com/page/3/',
'https://www.teamssix.com/page/4/',
'https://www.teamssix.com/page/5/'
]
接下来在 sub_article 函数尾部添加 parse 函数的全部代码
soup = BeautifulSoup(response.text, 'html.parser'