python3对拉勾数据进行可视化分析的方法详解

最新推荐文章于 2024-06-28 14:45:22 发布

haoxun03

最新推荐文章于 2024-06-28 14:45:22 发布

阅读量1.9k

点赞数 1

分类专栏： python教程文章标签：编程语言 python 可视化

本文链接：https://blog.csdn.net/haoxun03/article/details/104270008

版权

本文详述了使用Python3对拉勾网数据进行可视化分析的过程，包括数据预处理、学历与工作经验的可视化、薪资范围划分以及任职要求的词云图生成。通过分析，发现大部分Python数据分析师要求本科学历，1-5年工作经验，薪资集中在10k-20k，同时强调统计学、Python技能及多项软实力。

摘要由CSDN通过智能技术生成

这篇文章主要给大家介绍了关于python3对拉勾数据进行可视化分析的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用Python3具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
前言

上回说到我们如何把拉勾的数据抓取下来的，既然获取了数据，就别放着不动，把它拿出来分析一下，看看这些数据里面都包含了什么信息。
下面话不多说了，来一起看看详细的介绍吧

文章目录

一、前期准备

由于上次抓的数据里面包含有 ID 这样的信息，我们需要将它去掉，并且查看描述性统计，确认是否存在异常值或者确实值。

read_file = "analyst.csv"
# 读取文件获得数据
data = pd.read_csv(read_file, encoding="gbk")
# 去除数据中无关的列
data = data[:].drop(['ID'], axis=1)
# 描述性统计
data.describe()

在这里插入图片描述结果中的 unique 表示的是在该属性列下面存在的不同值个数，以学历要求为例子，它包含【本科、大专、硕士、不限】这4个不同的值，top 则表示数量最多的值为【本科】，freq 表示出现的频率为 387。由于薪资的 unique 比较多，我们查看一下存在什么值。

print(data['学历要求'].unique())
print(data['工作经验'].unique())
print(data['薪资'].unique())

在这里插入图片描述

二、预处理

从上述两张图可以看到，学历要求和工作经验的值比较少且没有缺失值与异常值，可以直接进行分析；但薪资的分布比较多，总计有75种，为了更好地进行分析，我们要对薪资做一个预处理。根据其分布情况，可以将它分成【5k 以下、5k-10k、10k-20k、20k-30k、30k-40k、40k 以上】，为了更加方便我们分析，取每个薪资范围的中位数，并划分到我们指定的范围内。

# 对薪资进行预处理
def pre_salary(data):
 salarys = data['薪资'].values
 salary_dic = {}
 for salary in salarys

最低0.47元/天解锁文章

haoxun03

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录