大学生就业研究——selenium爬取招聘信息并写入MySQL（完全版）

本文链接：https://blog.csdn.net/Momocone/article/details/140260314

前言

问题引入

在大数据驱动下，就业指导方法的创新研究逐渐聚焦于大数据应用技术。将毕业生的就业意向、职业规划、薪酬期望等信息在社会网络中分散复杂的招聘信息进行有效匹配。通过对就业数据的收集、挖掘以及处理，实现全方位就业指导服务。进一步探索如何更好地将大数据和就业服务工作的各个环节进行融合，如何最大化发挥大数据在就业指导及帮扶工作中的价值，实现就业工作的精准化、人性化、网格化，是当前阶段就业指导服务的研究趋势。

任务要求

数据实现网络爬虫，收集并整合大量的毕业生就业意向数据和社会招聘信息，涵盖不同地区、行业和职业类型的数据，确保数据的全面性和代表性。将爬取的数据信息存入数据库中，方便对这些信息进行各种操作，提升系统的稳定性。

实现

selenium

Selenium是一个用于自动化浏览器操作的工具集，主要用于测试Web应用程序。在爬虫开发中，Selenium被广泛用于模拟用户在浏览器中的操作，从而实现数据的自动化采集。它可以控制浏览器进行各种操作，如打开网页、填写表单、点击按钮、滚动页面等，完全模拟用户的行为。同时支持多种浏览器，包括 Chrome、Firefox、Edge 等，使得开发者可以根据需求选择合适的浏览器进行操作。

Selenium 还提供了多种语言的客户端库，如 Python、Java、JavaScript 等，使得开发者可以使用自己熟悉的编程语言进行开发。可以使用XPath和CSS选择器来定位网页元素，便于数据的准确提取。对于使用JavaScript动态生成内容的网页，Selenium 可以等待页面加载完成后再进行操作，确保数据的完整性和准确性。

许多现代网站采用JavaScript动态加载数据，传统的 HTTP 请求库（如 Requests）无法获取到完整的页面内容。Selenium可以完整加载页面，并且可以在页面完全渲染后再提取数据。同时它还可以模拟真实用户的行为，包括点击、滚动、等待页面加载等操作，使得爬虫更难被网站识别为机器人，降低被反爬虫策略封锁的风险。因此，在数据获取时我们优先选择Selenium进行网络爬虫。

在爬虫中我们主要使用它的核心组件Selenium WebDriver，其提供了一个与游览器交互的API，允许我们利用脚本模拟用户操作。在这个项目中，我们使用python并通过pip导入selenium库。

MySQL

MySQL是一个广泛使用的开源关系型数据库管理系统（RDBMS），基于SQL（Structured Query Language，结构化查询语言）进行操作。MySQL适用于各种应用场景，包括小型应用程序、中型应用程序和大型企业级应用程序。它的灵活性和可扩展性使其成为开发人员和系统管理员的热门选择。

在这个项目中，主要通过pip导入pandas库来实现与mysql数据库的连接。将我们在网页爬取的数据写入CSV文件中，再在mysql中建立一个相同规格的表，从而将这个CSV文件存入数据库之中。

为什么不使用MongoDB？

虽然之前学习和采用的都是MongoDB、Redis等非关数据库，但在这个项目中，我们主要是通过excel表的方式存储招聘信息，用MongoDB来存储显然不太方便。

代码

import threading
import queue
import re
import csv
from lxml import etree
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Optio