Python+selenium爬取智联招聘的职位信息

整个爬虫是基于selenium和Python来运行的,运行需要的包
####相关模块:

  • mysql
  • matplotlib
  • selenium

需要安装selenium火狐浏览器驱动,百度的搜寻。

整个爬虫是模块化组织的,不同功能的函数和类放在不同文件中,最后将需要配置的常量放在constant.py中

整个爬虫的主线程是Main.py文件,在设置好constant.py后就可以直接运行Main.py

####从主线分析

Main.py

import numpy as np

import dataFactory
import plotpy
import sqlDeal
import zhilian
from Constant import JOB_KEY
'''
遇到不懂的问题?Python学习交流群:1136201545满足你的需求,资料都已经上传群文件,可以自行下载!
'''
#
# 启动爬虫程序
zhilian.spidefmain(JOB_KEY)

"""
 爬取数据结束后对数据可视化处理
"""
# 从数据库读取爬取的数据
# 先得到的是元组name,salray,demand,welfare

value = sqlDeal.sqlselect()
# 工资上限,下限,平均值
updata = np.array([], dtype=np.int)
downdata = np.array([], dtype=np.int)
average = np.array([], dtype=np.int)
for item in value:
    salray = dataFactory.SarayToInt(item[1])
    salray.slove()
    updata = np.append(updata, salray.up)
    downdata = np.append(downdata, salray.down)
    average = np.append(average, (salray.up + salray.down) / 2)

# 工资上下限
average.sort()

# 匹配城市信息 暂时还未实现

# 统计信息
# 两种图形都加载出来 方便查看
plotpy.plotl(average)
plotpy.plots(average)

print(average, average.sum())
print("平均工资:", average.sum() / len(average))
print("最高:", average.max())
print("最低", average.min())
print("职位数", len(average))

基本是以爬虫整个执行流程来组织的

从功能文件中导入zhilian.py

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait

import sqlDeal
from Constant import PAGE_NUMBER
'''
遇到不懂的问题?Python学习交流群:1136201545满足你的需求,资料都已经上传群文件,可以自行下载!
'''
def init(key="JAVA"):
    # 智联招聘的主页搜索关键字,初始化到采集页面
    url = "https://www.zhaopin.com/"
    opt = webdriver.FirefoxOptions()
    opt.set_headless()           #设置无头浏览器模式
    driver = webdriver.Firefox(options=opt)
    driver.get(url)
    driver.find_element_by_class_name("zp-search-input").send_keys(key)
    # driver.find_element_by_class_name(".zp-search-btn zp-blue-button").click()
    driver.find_element_by_class_name("zp-search-input").send_keys(Keys.ENTER)
    import time
    time.sleep(2)
    all = driver.window_handles
    driver.switch_to_window(all[1])
    url = driver.current_url
    return url


class ZhiLian:

    def __init__(self, key='JAVA'):
        # 默认key:JAVA
        indexurl = init(key)
        self.url = indexurl
        self.opt = webdriver.FirefoxOptions()
        self.opt.set_headless()
        self.driver = webdriver.Firefox(options=self.opt)
        self.driver.get(self.url)

    def job_info(self):

        # 提取工作信息     可以把详情页面加载出来
        job_names = self.driver.find_elements_by_class_name("job_title")
        job_sarays = self.driver.find_elements_by_class_name("job_saray")
        job_demands = self.driver.find_elements_by_class_name("job_demand")
        job_welfares = self.driver.find_elements_by_class_name("job_welfare")
        for job_name, job_saray, job_demand, job_welfare in zip(job_names, job_sarays, job_demands, job_welfares):
            sqlDeal.sqldeal(str(job_name.text), str(job_saray.text), str(job_demand.text), str(job_welfare.text))

        # 等待页面加载
        print("等待页面加载")
        WebDriverWait(self.driver, 10, ).until(
            EC.presence_of_element_located((By.CLASS_NAME, "job_title"))
        )

    def page_next(self):
        try:
            self.driver.find_elements_by_class_name("btn btn-pager").click()
        except:
            return None
        self.url = self.driver.current_url
        return self.driver.current_url


def spidefmain(key="JAVA"):
    ZHi = ZhiLian(key)
    ZHi.job_info()
    # 设定一个爬取的页数
    page_count = 0
    while True:
        ZHi.job_info()
        ZHi.job_info()
        page_count += 1
        if page_count == PAGE_NUMBER:
            break
    # 采集结束后把对象清除
    del ZHi


if __name__ == '__main__':
spidefmain("python")

这是调用selenium模拟浏览器加载动态页面的程序,整个爬虫的核心都是围绕这个文件来进行的。

每爬取一页信息以后就把解析的数据存储到数据库里,数据库处理函数的定义放在另外一个文件里,这里只处理加载和提取信息的逻辑

将数据存入本机的mysql数据库

import mysql.connector

from Constant import SELECT
from Constant import SQL_USER
from Constant import database
from Constant import password


def sqldeal(job_name, job_salray, job_demand, job_welfare):
    conn = mysql.connector.connect(user=SQL_USER, password=password, database=database, use_unicode=True)
    cursor = conn.cursor()
    infostring = "insert into zhilian value('%s','%s','%s','%s')" % (
        job_name, job_salray, job_demand, job_welfare) + ";"
    cursor.execute(infostring)
    conn.commit()
    conn.close()


def sqlselect():
    conn = mysql.connector.connect(user=SQL_USER, password=password, database=database, use_unicode=True)
    print("连接数据库读取信息")
    cursor = conn.cursor()

    cursor.execute(SELECT)
    values = cursor.fetchall()
    conn.commit()
    conn.close()
    return values

两个函数

第一个负责存入数据

第二个负责读取数据

读取数据以后在另外的类中处理得到的数据

例如10K-20K这样的信息,为可视化做准备

import matplotlib.pyplot as plt
import numpy as np

from Constant import JOB_KEY


# 线型图


def plotl(dta):
    dta.sort()
    print("dta", [dta])
    num = len(dta)
    x = np.linspace(0, num - 1, num)
    print([int(da) for da in dta])
    print(len(dta))
    plt.figure()
    line = plt.plot(x, [sum(dta) / num for i in range(num)], dta)

    # plt.xlim(0, 250)
    plt.title(JOB_KEY + 'Job_Info')
    plt.xlabel(JOB_KEY + 'Job_Salray')
    plt.ylabel('JobNumbers')
    plt.show()


# 条形图


def plots(dta):
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.hist(dta, bins=15)
    plt.title(JOB_KEY + 'Job_Info')
    plt.xlabel(JOB_KEY + 'Job_Salray')
    plt.ylabel('JobNumbers')
plt.show()

最后将得到的数据放入在画图程序中画图

最后计算相关数据

在爬取过程中及时将数据存入数据库,减少虚拟机内存的占比。

下面放上数据结果image

上面是金融的工作的薪酬调查

下面是材料科学的薪酬调查

image

蓝色为平均工资。

注意在平均线以上的基本为博士和硕士的学历要求。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值