python数据爬虫——如何爬取二级页面（三）

最新推荐文章于 2024-07-22 19:59:01 发布

jaray

最新推荐文章于 2024-07-22 19:59:01 发布

阅读量4.9k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/jaray/article/details/106610977

版权

本文介绍了Python爬虫如何抓取二级页面的关键步骤，即从一级页面中定位二级页面链接，通过session.get(url2)访问并获取二级页面的内容。详细方法见原文。

摘要由CSDN通过智能技术生成

爬取二级页面，最重要的是找到二级页面地址，从一级页面中找到以后，使用session.get(url2),可以进入二级页面，按正常的方法便可爬取页面信息：

如果想看不同的方法，请移步：
python数据爬虫——如何爬取二级页面（三）

以下是我用的方法：

from requests_html import HTMLSession
import time
from openpyxl import Workbook

wb=Workbook()
ws=wb.active

ws.append(['职位', '公司名称', '公司详情', '公司地址', '招聘详情'])
session=HTMLSession()


header={
   
'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
}


for page in range(