关于深圳市“数据分析”岗位的招聘分析
一、项目背景
近年来,数据分析和大数据愈来愈热,但到底招聘情况如何呢?本文通过爬虫爬取了拉勾网(https://www.lagou.com/)5月18日的深圳市以“数据分析”为搜索关键字的原始数据,以期从数据中发现“数据分析”岗位招聘情况及就业前景。
二、数据获取
本文采用selenium自动化模块绕过拉勾网的反爬机制,模拟人工操作,获取动态加载数据页面,以下为原始代码:
#导入selenium自动化包
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys#导入自动填充内容模块
import requests
import pandas as pd#导入数据处理包
from pandas import DataFrame#数据处理
from lxml import etree#导入数据解析包
import time#模拟人工时间间隔
# from selenium.webdriver.chrome.options import Options#如果封IP了,则使用代理
import traceback
import xlwt#导入输出输出为Excel模块
#使用代理代码,未使用上
# pot = Options()
# pot.add_argument("--proxy-server=163.179.199.21:9999")
# pot.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36')
# web = Chrome(options=pot)
# web.get('http://httpbin.org/ip')
# print(browser.page_sourse)#
web = Chrome()
web.get('https://www.lagou.com/')#自动打开拉勾网
web.find_element_by_xpath('//*[@id="changeCityBox"]/ul/li[6]/a').click()#点击弹窗,选择深圳
web.find_element_by_xpath('//*[@id="lg_tbar"]/div[1]/div[2]/ul/li[1]/a').click()#点击登录按钮,拉勾的反扒机制,爬多页页,强制登录
time.sleep(2)
web.find_element_by_xpath('/html/body/div[2]/div[1]/div/div/div[2]/div[3]/div[1]/div/div[1]/form/div[1]/div/input').send_keys('登录名')#自动输入用户名
time.sleep(1)
web.find_element_by_xpath('/html/body/div[2]/div[1]/div/div/div[2]/div[3]/div[1]/div/div[1]/form/div[2]/div/input').send_keys('登录密码'