用pandas进行数据分析实战

数据湖开发者社区

于 2021-07-26 15:23:02 发布

阅读量1.4k

点赞数 2

分类专栏：数据分析文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59963538/article/details/119105599

版权

本文详细介绍了如何使用pandas进行数据分析，包括载入数据、处理编码、分割符、表头，以及如何查看和处理重复数据。接着，通过实例展示了如何计算薪资范围、平均薪资，以及使用value_counts和describe进行统计分析。此外，还讨论了如何利用pandas的可视化功能，如直方图和箱线图，来探究城市和学历对薪资的影响。最后，涉及了数据的分桶处理和标签统计，以及如何创建词云图进行可视化呈现。

摘要由CSDN通过智能技术生成

安装pandas模块包，载入练习数据。

在pandas中，常用的载入函数是read_csv。除此之外还有read_excel和read_table，table可以读取txt。若是服务器相关的部署，则还会用到read_sql，直接访问数据库，但它必须配合mysql相关包。

read_csv拥有诸多的参数，encoding是最常用的参数之一，它用来读取csv格式的编码。这里使用了gb2312，该编码常见于windows，如果报错，可以尝试utf-8。

sep参数是分割符，有些csv文件用逗号分割列，有些是分号，有些是\t，这些都需要具体设置。header参数为是否使用表头作为列名。

names参数可以为列设置额外的名字，比如csv中的表头是中文，但是在pandas中最好转换成英文。

通过输出我们可以看到其表格的行与列数，但由于篇幅原因，显示中部分数据省略。我们可以通过调整展示的长度及宽度显示更多文件信息。

因为数据集的数据比较多，如果我们只想浏览部分的话，可以使用head函数，显示头部的数据，默认5，也可以自由设置参数，如果是尾部数据则是tail。

不设置head函数参数，输出结果如下：

设置head函数参数值为7，结果输出如下：

不设置tail函数参数，输出结果如下：

设置tail函数参数为6，输出结果如下：

检查是否有重复数据，其中positionId是职位ID，具备唯一性，我们通过此列进行重复数据检查。

我们得到唯一值只有5031个，但根据表格共有6876个数据，我们需要将重复数据清除。

使用drop_duplicates清除重复数据。

drop_duplicates函数通过subset参数选择以哪个列为去重基准。keep参数则是保留方式，first是保留第一个，删除后余重复值，last还是删除前面，保留最后一个。duplicated函数功能类似，但它返回的是布尔值。

接下来处理salary薪资数据。计算出薪资下限以及薪资上限。薪资内容没有特殊的规律，既有小写k，也有大写K，还有k以上等用法，k以上只能上下限默认相同。

这里需要用到pandas中的apply。它可以针对DataFrame中的一行或者一列数据进行操作，允许使用自定义函数。

最低0.47元/天解锁文章

数据湖开发者社区

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。