深圳市“数据分析”岗位招聘分析——基于selenium爬虫

关于深圳市“数据分析”岗位的招聘分析

一、项目背景

近年来,数据分析和大数据愈来愈热,但到底招聘情况如何呢?本文通过爬虫爬取了拉勾网(https://www.lagou.com/)5月18日的深圳市以“数据分析”为搜索关键字的原始数据,以期从数据中发现“数据分析”岗位招聘情况及就业前景。

二、数据获取

本文采用selenium自动化模块绕过拉勾网的反爬机制,模拟人工操作,获取动态加载数据页面,以下为原始代码:

#导入selenium自动化包
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys#导入自动填充内容模块
import requests
import pandas as pd#导入数据处理包
from pandas import DataFrame#数据处理
from lxml import etree#导入数据解析包
import time#模拟人工时间间隔
# from selenium.webdriver.chrome.options import Options#如果封IP了,则使用代理
import traceback
import xlwt#导入输出输出为Excel模块
#使用代理代码,未使用上
# pot = Options()
# pot.add_argument("--proxy-server=163.179.199.21:9999")
# pot.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36')
# web = Chrome(options=pot)
# web.get('http://httpbin.org/ip')
# print(browser.page_sourse)#

web = Chrome()
web.get('https://www.lagou.com/')#自动打开拉勾网
web.find_element_by_xpath('//*[@id="changeCityBox"]/ul/li[6]/a').click()#点击弹窗,选择深圳
web.find_element_by_xpath('//*[@id="lg_tbar"]/div[1]/div[2]/ul/li[1]/a').click()#点击登录按钮,拉勾的反扒机制,爬多页页,强制登录
time.sleep(2)
web.find_element_by_xpath('/html/body/div[2]/div[1]/div/div/div[2]/div[3]/div[1]/div/div[1]/form/div[1]/div/input').send_keys('登录名')#自动输入用户名
time.sleep(1)
web.find_element_by_xpath('/html/body/div[2]/div[1]/div/div/div[2]/div[3]/div[1]/div/div[1]/form/div[2]/div/input').send_keys('登录密码'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值