Python数据分析及可视化——以拉勾网数据分析岗位为例_拉勾网数据分析与可视化分析-CSDN博客

本文链接：https://blog.csdn.net/qq_25202521/article/details/107982146

本文通过数据可视化展示了拉勾网上数据分析岗位的招聘信息，包括岗位在各城市的分布、学历要求、企业词云以及各城市平均薪资对比。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

对上篇文章（点击回顾）爬取的拉勾网数据分析岗位招聘信息进行数据分析和可视化操作。

1. 导入工具库

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from wordcloud import WordCloud

2. 读取文件

# 添加表头，保存为新文件（避免污染元数据）
df = pd.read_csv('拉勾复现.csv',names=['岗位','公司','行业','城市','薪水','学历要求','职位性质'])
df.to_csv('数据分析招聘信息.csv',index=False)

# 读取文件
df = pd.read_csv('数据分析招聘信息.csv')
df

在这里插入图片描述

3. 岗位城市分布图

# 获取作图数据
city = list(df['城市'].value_counts().index)
cityNumber = list(df['城市'].value_counts())

# 设置中文字体
plt.rcParams['font.family'] = ['Fangsong']

# 设置画布大小
plt.figure(figsize=(30,15))

#设置坐标刻度字体大小
plt.xticks(fontsize=25)
plt.yticks(fontsize=25)

#画柱状图
plt.bar(city,cityNumber)
plt.title('岗位城市分布图',fontsize=40)
plt.xlabel('城市',fontsize=40)
plt.ylabel('岗位数',fontsize=40)
plt.show()

在这里插入图片描述
可以看到，招聘数量最多的四个城市为：北京、上海、深圳和广州。

4. 学历要求百分图

education = list(df['学历要求'].value_counts().index)
educationNumber = list(df['学历要求'].value_counts())

# 设置画布大小
plt.figure(figsize=(10,10))

#画柱状图
plt.pie(educationNumber,labels=education,explode=(0.1,0,0,0),colors=['lightskyblue','yellow','green','orange'],textprops = {'fontsize':30},autopct='%1.2f%%')
plt.title('学历要求占比图',fontsize=30)
plt.show()

在这里插入图片描述
数据分析岗对学历有一定要求，本科及以上的岗位占比九成以上。

5. 企业词云图

# 制作词频
company = list(df['公司'].value_counts().index)
companyNumber = list(df['公司'].value_counts())
word_frequency = dict(zip(company,companyNumber))

# 词云
wordcloud = WordCloud(font_path='C:/Windows/Fonts/simfang.ttf',mode='RGBA',background_color=None,width=1000,height=800).fit_words(word_frequency)

# 画图
plt.figure(figsize=(15,10))
plt.imshow(wordcloud)
plt.axis('off')
plt.show() 

# 保存到文件
wordcloud.to_file('招聘企业词云图.png')

在这里插入图片描述
由词云图可以看出，招聘岗位数目比较多的企业有：字节跳动、快手、美团、恒泰投资和拉勾网等等，其中互联网需求最旺盛。

6. 各城市平均薪资对比图

# 薪水处理函数
def pre_salary(data):
    min = int(data.split('-')[0][:-1])
    max = int(data.split('-')[1][:-1])
    return (min+max)*500

# 仅统计全职性质岗位的薪资
df = df[df['职位性质'] == '全职']

# 数据处理
df_1  = pd.DataFrame(df['城市'])
df_2 = df['薪水'].apply(pre_salary)
df_aver = df_1.assign(平均薪水 = df_2)
df_aver = df_aver.groupby('城市').agg({'平均薪水':'mean'})
df_aver = df_aver.sort_values('平均薪水',ascending=False)

# 获取作图数据
city = list(df_aver.index)
salary_aver = list(df_aver['平均薪水'])

# 画图
plt.figure(figsize = (30,15))
plt.bar(city,salary_aver)
plt.title('各城市数据分析岗平均薪资对比图',fontsize = 40)
plt.xlabel('城市',fontsize = 40)
plt.ylabel('薪资',fontsize = 40)
plt.xticks(fontsize = 25)
plt.yticks(fontsize = 25)
plt.show()

在这里插入图片描述
令人意外的是，平均薪水前四城市为：北京、厦门、上海和深圳，广州不仅掉出前四，甚至只排到第八。原因一方面可能是，广州薪水确实比较低；另一方面可能是，收集数据的时候，由于拉勾只动态展示30页数据，而这其中广州招聘岗位给的薪水较低。从严谨程度出发，应进行多次数据采集再求均值。不过这篇文章重点在于数据处理、分析和可视化操作，从这个方面来看，目的已达成。