深圳市“数据分析”岗位招聘分析——基于selenium爬虫_深圳市“数据分析”岗位招聘分析

本文链接：https://blog.csdn.net/qq_40661240/article/details/117021210

关于深圳市“数据分析”岗位的招聘分析

一、项目背景

近年来，数据分析和大数据愈来愈热，但到底招聘情况如何呢？本文通过爬虫爬取了拉勾网（https://www.lagou.com/）5月18日的深圳市以“数据分析”为搜索关键字的原始数据，以期从数据中发现“数据分析”岗位招聘情况及就业前景。

二、数据获取

本文采用selenium自动化模块绕过拉勾网的反爬机制，模拟人工操作，获取动态加载数据页面，以下为原始代码：

#导入selenium自动化包
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys#导入自动填充内容模块
import requests
import pandas as pd#导入数据处理包
from pandas import DataFrame#数据处理
from lxml import etree#导入数据解析包
import time#模拟人工时间间隔
# from selenium.webdriver.chrome.options import Options#如果封IP了，则使用代理
import traceback
import xlwt#导入输出输出为Excel模块
#使用代理代码，未使用上
# pot = Options()
# pot.add_argument("--proxy-server=163.179.199.21:9999")
# pot.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36')
# web = Chrome(options=pot)
# web.get('http://httpbin.org/ip')
# print(browser.page_sourse)#

web = Chrome()
web.get('https://www.lagou.com/')#自动打开拉勾网
web.find_element_by_xpath('//*[@id="changeCityBox"]/ul/li[6]/a').click()#点击弹窗，选择深圳
web.find_element_by_xpath('//*[@id="lg_tbar"]/div[1]/div[2]/ul/li[1]/a').click()#点击登录按钮，拉勾的反扒机制，爬多页页，强制登录
time.sleep(2)
web.find_element_by_xpath('/html/body/div[2]/div[1]/div/div/div[2]/div[3]/div[1]/div/div[1]/form/div[1]/div/input').send_keys('登录名')#自动输入用户名
time.sleep(1)
web.find_element_by_xpath('/html/body/div[2]/div[1]/div/div/div[2]/div[3]/div[1]/div/div[1]/form/div[2]/div/input').send_keys('登录密码'