当需要的信息要经过两个链接才能打开的时候,就需要用到嵌套爬取。
比如要爬取起点中文网排行榜的小说简介,找到榜单网址:https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1
将榜单上的小说链接爬出来,在从小说链接里面爬小说简介
import pymysql import requests from hashlib import md5 import re import os #获取网页源代码 def get_one_page(url): # 设置请求头,防止被网站屏蔽 headers = { 'User-Agent':