爬取二级页面,最重要的是找到二级页面地址,从一级页面中找到以后,使用session.get(url2),可以进入二级页面,按正常的方法便可爬取页面信息:
如果想看不同的方法,请移步:
python数据爬虫——如何爬取二级页面(三)
以下是我用的方法:
from requests_html import HTMLSession
import time
from openpyxl import Workbook
wb=Workbook()
ws=wb.active
ws.append(['职位', '公司名称', '公司详情', '公司地址', '招聘详情'])
session=HTMLSession()
header={
'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
}
for page in range(