拉勾网Python爬虫：Selenium+Xpath 反反爬、免登录获取全部职位详情

最新推荐文章于 2022-06-22 15:37:43 发布

Newyee

最新推荐文章于 2022-06-22 15:37:43 发布

阅读量2.1k

点赞数 2

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/Newyee/article/details/88577868

版权

该博客介绍了如何使用Python的Selenium库和XPath来绕过拉勾网的反爬机制，抓取北京地区数据分析师的职位详情。通过模拟浏览器操作，解决频繁请求导致的登录问题，并将数据存储为SQL文件准备导入MySQL。文章提到了可能的优化方向，包括隐藏浏览器、参数化配置、直接数据库交互等。

摘要由CSDN通过智能技术生成

需求描述

抓取「拉勾网」『北京数据分析师』30页职位详情数据存入 MySQL 数据库

需求分析

拉勾网搜索页面一般都只展示30页、每页15个职位信息，约450条；
拉勾网反爬加强，直接请求 positionAjax.json 无法获得包含职位信息的 json 数据（提示：“msg”:“您操作太频繁,请稍后再访问”），浏览器都无法访问，延长间隔时间也无济于事，转而考虑 selenium 来实现。

实现原理

selenium浏览器自动化测试框架驱动谷歌浏览器，模拟人使用浏览器查看网页的过程获取数据；
先请求搜索页面解析得到职位详情页的 url，再进入详情页获取全部所需的详情；
不过职位详细信息需要逐一解析html获取（麻烦），不如json数据那般可直接提取（容易）。

注意问题

搜索页和详情页请求过快便会跳出来登录页面，需要适当延长间隔时间（尤其是连续请求详情页），尽可能模拟人的行为；
连续请求10个详情页就会弹出登录页（实测手动在浏览器中操作也是），每请求10个需要重启一次浏览器（不重启则一直弹出登录）；
因需要尽可能模拟人在操作浏览器，间隔时间较多、耗时较长，请耐心等待。
本文使用的谷歌浏览器，需要提前下载 chromedriver.exe 放入工作目录。
本例直接生成 sql 文件 以导入MySQL数据库（source xxx.sql），下一篇文章会用 pymysql 模块直接存入数据库 → 看这里。

URL示例

搜索页示例：https://www.lagou.com/jobs/list_数据分析师?city=北京&cl=false&fromSearch=true&labelWords=&suginput=
详情页示例：https://www.lagou.com/jobs/5496895.html

完整代码

"""
抓取拉勾网“北京”“数据分析师”30页职位详情数据存入MySQL数据库
@Author: Newyee
@Python: 3.6.5
@selenium: 3.141.0
@Chrome: 72.0.3626.81
"""

# 导入相关模块（未安装可执行 pip install xxx 命令安装）
from selenium import webdriver
from lxml import etree
import random
import time


# 创建类
class LagouSpider():

    def __init__(self):
        # 初始化类实例时打开谷歌浏览器（可查看测试过程）
        self.driver = webdriver.Chrome()
        # 搜索页面的url
        self.url = "https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput="
        # 存放所有职位详情页的url
        self.all_links = []

    def run2(self, ten_links):
        '''
        每次对10个职位详情url请求并解析，保存职位详细信息，退出浏览器
        :param ten_links: 10个职位详情页url组成的list
        :return:
        '''
        # 遍历每个detail_url
        for link in ten_links:
            # 调用request_detail_page请求并解析
            self.request_detail_page(link)
            # 随机间隔3-6s，避免反爬
            time.sleep(random.randint(3, 6))
        # 获取10个职位信息后退出浏览器
        self.driver.quit()

    def run1(self):
        '''
        打开搜索页面，并循环翻页至最后一页，解析html获得all_detail_links
        :return:
        '''
        # 在当前打开的浏览器中加载页面
        self.driver.get(self.url)
        # 用于记录当前是第几页
        count_page = 1
        # 循环翻页直到最后一页
        while True:
            # 获取当前页的网页源代码
            source = self.driver.page_source
            # 利用xpath解析source获得detail_links并保存到
            self.get_all_detail_links(source)
            print('Fetched page %s.' %str(count_page))