python爬虫项目（二）：爬取招聘网站岗位信息并进行求职者偏好分析

人工智能_SYBH

于 2024-10-01 22:55:22 发布

阅读量410

点赞数 18

分类专栏：爬虫试读文章标签： python 爬虫开发语言 python爬虫项目 python爬虫

本文链接：https://blog.csdn.net/m0_68036862/article/details/142675853

版权

爬虫试读专栏收录该内容

20 篇文章 0 订阅

订阅专栏

引言

随着互联网的普及和就业市场的日益全球化，求职者在选择工作时的偏好变得更加复杂。通过分析招聘网站上的岗位信息，可以有效地了解求职者的偏好趋势和市场需求，从而帮助公司招聘和求职者做出明智的决策。本文将介绍如何爬取招聘网站的岗位信息，并通过数据分析探讨求职者的偏好。

一、项目背景与需求分析

目标
- 爬取招聘网站的职位信息，如岗位名称、公司、薪资、工作地点、岗位描述、要求等。
- 分析招聘市场的热门岗位、薪资水平、行业需求、以及不同城市的工作机会分布。
- 探索求职者对岗位要求的偏好，例如工作地点、薪资、技能等。
工具选择
- 爬虫工具：Python中的Scrapy用于批量数据抓取，Selenium用于动态页面爬取。
- 数据处理：Pandas用于数据清洗与处理，Matplotlib和Seaborn用于可视化分析。
- 数据分析：机器学习中的聚类、分类方法，用于分析求职者偏好。
反爬策略
- 招聘网站普遍设置了反爬策略，绕过这些策略的常见方法包括设置代理IP、模拟用户行为（如随机延时和切换用户代理），并控制爬取频率。

二、爬虫设计与实现

目标网站选择
- 可以选择如前程无忧、智联招聘、拉勾网等平台作为数据源。
- 爬取字段：职位名称、公司名称、薪资范围、工作地点、职位要求、发布时间等。
Selenium实现动态页面爬取
- 由于一些招聘网站内容通过JavaScript动态加载，Selenium模拟浏览器行为能够更好地获取这些信息。

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import pandas as pd

# 启动Chrome浏览器
driver = webdriver.Chrome(executable_path="chromedriver_path")

# 设置目标网站URL
url = 'https://www.examplejob.com/jobs'
driver.get(url)

# 爬取岗位信息函数
def scrape_job_data():
    time.sleep(5)  # 等待页面加载
    
    # 获取职位列表
    jobs = driver.find_elements(By.CSS_SELECTOR, '.job-listing')
    job_data = []
    
    for job in jobs:
        try:
            job_title = job.find_element(By.CSS_SELECTOR, '.job-title').text
            company_name = job.find_element(By.CSS_SELECTOR, '.company-name').text
            salary = job.find_element(By.CSS_SELECTOR, '.salary-range').text
            location = job.find_element(By.CSS_SELECTOR, '.job-location').text
            description = job.find_element(By.CSS_SELECTOR, '.job-description').text
            
            job_data.append({
                'Job Title': job_title,
                'Company Name': company_name,
                'Salary': salary,
                'Location': location,
                'Description': description
            })
        except Exception as e:
            print(f"Error extracting job: {e}")
    
    return job_data

# 获取多个页面信息
all_jobs = []
for page in range(1, 10):  # 爬取多页
    all_jobs.extend(scrape_job_data())
    next_page = driver.find_element(By.CSS_SELECTOR, '.next-page')
    next_page.click()  # 点击下一页

# 存储数据到DataFrame
df = pd.DataFrame(all_jobs)

# 保存为CSV文件
df.to_csv('job_listings.csv', index=False)

# 关闭浏览器
driver.quit()

三、数据清洗与预处理

数据清洗
- 缺失值处理：如果某些字段有缺失值，可以根据实际需求进行处理，如删除缺失值或填补。
- 薪资处理：招聘信息中的薪资范围通常为字符串格式，需要提取其中的数字，并处理为可用的数值型数据。

# 数据清洗
df['Salary'] = df['Salary'].str.replace('K', '').str.split('-')
df['Salary_Min'] = df['Salary'].apply(lambda x: int(x[0]) * 1000)
df['Salary_Max'] = df['Salary'].apply(lambda x: int(x[1]) * 1000)
df['Salary_Avg'] = (df['Salary_Min'] + df['Salary_Max']) / 2

数据预处理

职位描述分词：将职位描述文本分词，为后续的文本分析和特征提取做准备。可以使用Jieba进行中文分词。
特征工程：对岗位数据中的地点、行业类别、公司类型等字段进行编码。

import jieba

# 职位描述分词
df['Description_Segmented'] = df['Description'].apply(lambda x: ' '.join(jieba.cut(x)))

# 对地点进行编码
df['Location_Code'] = df['Location'].astype('category').cat.codes

四、求职者偏好分析

职位分布可视化
- 使用Seaborn和Matplotlib绘制工作地点分布图、薪资范围分布图、热门岗位分布等。

import seaborn as sns
import matplotlib.pyplot as plt

# 不同城市的职位数量
city_counts = df['Location'].value_counts()

plt.figure(figsize=(10,6))
sns.barplot(x=city_counts.index, y=city_counts.values)
plt.title('Job Count by Location')
plt.xticks(rotation=90)
plt.show()

薪资分布分析
- 分析不同城市、不同岗位的薪资水平，找出高薪岗位的热门城市和行业。

plt.figure(figsize=(10,6))
sns.boxplot(x='Location', y='Salary_Avg', data=df)
plt.title('Salary Distribution by Location')
plt.xticks(rotation=90)
plt.show()

文本分析：职位描述中的关键词提取
- 使用TF-IDF等方法提取职位描述中的关键词，以识别热门技能需求。

from sklearn.feature_extraction.text import TfidfVectorizer

# 提取职位描述中的关键词
tfidf = TfidfVectorizer(max_features=50)
X_tfidf = tfidf.fit_transform(df['Description_Segmented'])

# 展示关键词
keywords = tfidf.get_feature_names_out()
print("热门关键词：", keywords)

求职者偏好分析：基于岗位特征的聚类分析
- 使用KMeans聚类算法，根据职位的薪资、地点、职位描述等特征对岗位进行聚类，分析求职者的偏好类别。

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# 特征选择
X = df[['Salary_Avg', 'Location_Code']]

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 聚类
kmeans = KMeans(n_clusters=5, random_state=42)
df['Cluster'] = kmeans.fit_predict(X_scaled)

# 可视化聚类结果
plt.figure(figsize=(10,6))
sns.scatterplot(x='Salary_Avg', y='Location_Code', hue='Cluster', data=df, palette='Set1')
plt.title('Job Clusters by Salary and Location')
plt.show()

五、机器学习建模与预测

岗位匹配模型
- 基于求职者的个人信息（如期望薪资、工作地点、技能等），可以训练分类模型进行岗位匹配推荐。使用随机森林或XGBoost等机器学习算法进行分类。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# 数据划分
X = df[['Salary_Avg', 'Location_Code']]
y = df['Cluster']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 随机森林分类
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 模型评估
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

岗位需求预测
- 通过时间序列分析和回归模型，可以预测未来一段时间内某些行业或岗位的需求增长趋势。例如，使用ARIMA或Prophet模型预测岗位发布数量的变化趋势。

from fbprophet import Prophet

# 准备数据
df['Date'] = pd.to_datetime(df['Date'])
job_count_by_date = df.groupby('Date').size().reset_index(name='Job_Count')

# 使用Prophet进行时间序列预测
prophet_model = Prophet()
job_count_by_date.columns = ['ds', 'y']
prophet_model.fit(job_count_by_date)

# 预测未来30天的需求
future = prophet_model.make_future_dataframe(periods=30)
forecast = prophet_model.predict(future)

# 绘制预测结果
prophet_model.plot(forecast)
plt.show()