目标:
爬取前程无忧网站职位关键字为python的职位信息
分析
首页的链接地址:
‘https://search.51job.com/list/000000,000000,0000,00,9,99,Python,2,1.html’
不同页码对应url
‘https://search.51job.com/list/000000,000000,0000,00,9,99,Python,2,page.html’ 其中page对应页数
存在的问题
- 对第一页爬取数据发现不能解析职位信息:将获得的响应保存为html打开后发现的确没有职位信息
- 总页数随着时间会发生变化:不能将页数固定
- 列表页和详情页允许域名不同:域名注意
问题解决
1.考虑使用selenium模拟浏览器访问获得职位信息和总的页数
2.获得页数后动态添加 start_urls列表页url
3.selenium控制浏览器访问列表页,每访问一次列表页将该页所有职位详情页面保存在列表中
4.职位详情页不需要使用selenium因此速度很快
代码实现
import scrapy
from lxml import etree
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.we