python scrapy爬虫框架抓取BOSS直聘平台数据可视化统计分析

晓时谷雨

已于 2024-10-19 10:26:03 修改

阅读量3k

点赞数 15

分类专栏： Python 文章标签： python scrapy 爬虫 pandas 数据可视化

于 2024-09-06 21:00:00 首次发布

本文链接：https://blog.csdn.net/NuclearDalance/article/details/141960968

版权

Python 专栏收录该内容

4 篇文章

订阅专栏

使用python scrapy实现BOSS直聘数据抓取分析

前言

随着金秋九月的悄然而至，我们迎来了业界俗称的“金九银十”跳槽黄金季，周围的朋友圈中弥漫着探索新机遇的热烈氛围。然而，作为深耕技术领域的程序员群体，我们往往沉浸在代码的浩瀚宇宙中，享受着解决技术难题的乐趣，却也不经意间与职场外部的风云变幻保持了一定的距离，对行业动态或许仅有一鳞半爪的了解，甚至偶有盲区。

但正是这份对技术的执着与热爱，铸就了我们程序猿独有的智慧与创造力。面对信息获取的局限，我们从不轻言放弃，而是选择以技术为舟，智慧为帆，主动出击，寻找破局之道。于是，我，一个满怀热情的程序员，决定利用我的技术专长，为这一难题量身打造解决方案。

我将运用python爬虫技术，构建一套针对于BOSS直聘平台的数据抓取和统计分析脚本。这个脚本不仅能够实时抓取并分析薪资范围、所需经验和学历，还能根据关键词进行检索。如此，即便我们身处技术的深海，也能保持对外部世界的敏锐洞察，确保在每一次职业抉择中都能做出最优选择。

通过这样的尝试，我希望能为广大的程序员朋友们搭建起一座桥梁，连接技术与职场，让每一位程序猿都能在技术的海洋中自由遨游的同时，也能精准把握每一次跃向更广阔天地的机会。

效果图

抓取的部分数据

在这里插入图片描述

统计分析图表

在这里插入图片描述

技术栈

项目整体使用scrapy爬虫框架
使用selenium解决动态网页加载
使用pandas进行数据分析统计
使用matplotlib实现图表生成

源代码

由于spiders框架会自动生成目录结构，所以这里我只放出核心代码，为大家提供一个思路，完整代码可访问我的GitHub.

import scrapy
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.ui import WebDriverWait

# 爬虫代码
class BossSpider(scrapy.Spider):
    name = "bossSpider"
    # 设置输出文件
    custom_settings = {
        'FEED_URI': 'BossData.csv',
    }
    # 创建WebDriver实例，不能开启无头模式，否则无法获取到数据
    driver = webdriver.Edge()
    query = input("输入要搜索的职位、公司：")
    page = 1

    def start_requests(self):
        url = f"https://www.zhipin.com/web/geek/job?query={self.query}&city=100010000"
        self.driver.get(url)
        yield scrapy.Request(url, callback=self.parse, meta={'driver': self.driver})

    def parse(self, response, **kwargs):
        driver = response.meta['driver']
        try:
            # 等待元素加载成功
            WebDriverWait(driver, 60).until(
                ec.presence_of_element_located(
                    (By.XPATH, '//div[@class="search-job-result"]//li[@class="job-card-wrapper"]'))
            )
            job_elements = driver.find_elements(By.XPATH,
                                                '//div[@class="search-job-result"]//li[@class="job-card-wrapper"]')
            for element in job_elements:
                data_store = DataStore()
                # 职位名称
                data_store['name'] = element.find_element(By.XPATH, './/span[@class="job-name"]').text
                # 工作地点
                data_store['area'] = element.find_element(By.XPATH, './/span[@class="job-area"]').text
                # 薪水
                data_store['salary'] = element.find_element(By.XPATH, './/span[@class="salary"]').text
                # 标签(经验、学历)
                tag = element.find_element(By.XPATH, './/ul[@class="tag-list"]')
                tag_list = tag.find_elements(By.TAG_NAME, 'li')
                data_store['experience'] = tag_list[0].text
                data_store['education'] = tag_list[1].text
                # 联系人
                data_store['contact_person'] = element.find_element(By.XPATH, './/div[@class="info-public"]').text
                # 公司logo
                company_logo = element.find_element(By.XPATH, './/div[@class="company-logo"]')
                logo_img = company_logo.find_element(By.TAG_NAME, 'a').get_attribute('href')
                data_store['company_logo'] = logo_img
                # 公司名称
                data_store['company_name'] = element.find_element(By.XPATH, './/h3[@class="company-name"]').text
                # 公司标签
                company_tag_list = element.find_element(By.XPATH, './/ul[@class="company-tag-list"]')
                tag_list = company_tag_list.find_elements(By.TAG_NAME, 'li')
                data_store['company_tag'] = ','.join([tag.text for tag in tag_list if tag.text])
                # 职位描述
                footer = element.find_element(By.XPATH, './/div[@class="job-card-footer clearfix"]')
                tag_list = footer.find_elements(By.TAG_NAME, 'li')
                data_store['tag_list'] = ','.join([tag.text for tag in tag_list if tag.text])
                # 公司福利
                data_store['info_desc'] = footer.find_element(By.XPATH, './/div[@class="info-desc"]').text

                yield data_store.data

            self.page += 1
            if self.page <= 3:
                next_page_url = f"https://www.zhipin.com/web/geek/job?query={self.query}&city=100010000&page={self.page}"
                self.driver.get(next_page_url)
                yield scrapy.Request(next_page_url, callback=self.parse, meta={'driver': self.driver})

        except Exception as e:
            # 处理超时异常或其他异常
            print(f"Error: {e}")
            yield None


# 存储抓到的数据
class DataStore:
    def __init__(self):
        self.data = {}

    def __setitem__(self, key, value):
        self.data[key] = value

    def __getitem__(self, item):
        return self.data[item]

import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体为黑体
plt.rcParams['axes.unicode_minus'] = False  # 正确显示负号

# 数据分析
def data_analyse(csv, column, title, x_label, y_label):
    # 读取CSV文件
    data = pd.read_csv(csv)
    # 计数，并按升序排列
    value_counts = data[column].value_counts(ascending=True).sort_index(ascending=True)
    # 绘制柱状图
    value_counts.plot(kind='bar')

    # 在每个柱子顶部添加数字
    for i, val in enumerate(value_counts):
        plt.text(i, val, int(val), ha='center', va='bottom')

    # 设置标题
    plt.title(title)
    # 设置X轴标签
    plt.xlabel(x_label)
    # 设置Y轴标签
    plt.ylabel(y_label)
    # 自动调整子图参数，使之填充整个图表区域，边距不足时可能报错，但不会影响程序执行
    plt.tight_layout()
    plt.show()


if __name__ == '__main__':
    data_analyse('BossData.csv', 'salary', '薪资统计', '范围', '数量')
    data_analyse('BossData.csv', 'experience', '经验统计', '经验', '数量')
    data_analyse('BossData.csv', 'education', '学历统计', '学历', '数量')

未来功能扩展

不局限在BOSS平台，扩展多种平台的抓取和分析。
增加更多的检索条件，提炼更加精准的数据分析。
如果有足够的精力，可以考虑将数据存储在数据库表中，然后利用SQL语句和后端逻辑进行深入的数据分析还可以通过前端图表组件，如ECharts或D3.js，来创建直观且美观的数据可视化。

合法性

robots协议：由于互联网开放、互联互通的特点，尽管互联网企业可以在robots协议中通过技术术语告知搜索引擎的网络机器人其希望或不希望抓取的网页内容，但robots协议的初衷是为了指引搜索引擎的网络机器人更有效的抓取对网络用户有用的信息，从而更好地促进信息共享，而不应将robots协议作为限制信息流通的工具。
技术手段：没有使用模拟登录、破解反爬机制等涉及网络安全的技术手段。
数据用途：爬取的数据不会用于商业用途或侵犯个人隐私。
网站压力：没有使用突破其IP封锁的技术，不会造成DDoS攻击。
本程序仅供学习和研究之用。若您使用或参考本程序进行任何可能导致违法行为的操作，相关责任将由您自行承担。我们建议您在使用过程中遵守相关法律法规，确保所有行为合法合规。