Python Pandas 分类/连续变量的探索性数据分析（附源码与数据）——pandas 描述性统计，交叉表，数据透视表

最新推荐文章于 2023-09-04 20:19:25 发布

萝卜

最新推荐文章于 2023-09-04 20:19:25 发布

阅读量2.5k

点赞数 2

分类专栏： # 数据处理 # 原理趣析 # Python 实现文章标签：统计学数据分析 Python 数据挖掘数据可视化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43329700/article/details/108446447

版权

数据处理同时被 3 个专栏收录

15 篇文章 6 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

3 篇文章 1 订阅

订阅专栏

在这里插入图片描述
这是趣味统计的第 1 期分享
作者 l 萝卜

正式开始建模与处理数据前，对数据进行探索并有一个初步的认识非常重要，本文将围绕变量探索，展示分类、连续变量，以及两种类型变量结合的探索方法，并展示 Python Pandas 数据处理与可视化中的一些快捷常用骚操作~

注：本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~

在这里插入图片描述

分类变量

01 一个分类变量

一个分类变量的分析方法可考虑频次和百分比，用饼图或者柱状图表示都可以
在这里插入图片描述
我们也可以通过设置画布布局来同时显示两个连续变量的各自探索情况

02 两个分类变量

结合两个分类变量考量的分布情况可考虑使用交叉表 cross table

这里我们将探究每个地区的学区房分布情况：参数 margins 设置为 True 表示在最后一行与最后一列显示汇总统计 ALL
在这里插入图片描述
如果要将上述交叉表可视化，可考虑使用前人的轮子：一行代码快速绘制标准化的堆叠图，反映占比的同时还能看出每一类的数据量大小

连续变量

01 一个连续变量

直接进行描述性统计分析，以房价分布为例
在这里插入图片描述

02 两个连续变量

绘制散点图等关系图进行探索，以探寻房屋面积与价格的关系为例
在这里插入图片描述

连续变量 + 分类变量

01 一个分类 + 一个连续

groupby 分组 + 描述性统计分析，制造出分类变量下每类的单一的连续变量相当于求分类后的每类的统计量，groupby 后面不跟统计量的代码没有意义。

分类箱型图，柱形图等，两坐标轴中一个为分类变量，另一个为连续变量

统计量是样本的数值概要，用来描述样本；参数则是总体的数值概要

在这里插入图片描述

同理，也可绘制箱线图
在这里插入图片描述

02 两个分类 + 一个连续

使用数据透视表，即在两个分类变量探索时使用的交叉表的升级

先整体确定由两个分类变量构成的行索引 index 与列索引 columns，然后再将连续变量的统计量如 mean，medium 等放入数据框内部。透视表函数中的部分参数与交叉表一样，只是多了处理连续变量的参数。

以求每个区域有无地铁时的房屋均价，发现无论在哪个区，有地铁的房屋价格均高于无地铁的。
在这里插入图片描述
当然，我们也可以尝试 “ 三个分类变量 + 一个连续变量 ”：

上透视表的理解步骤如下：

参数 index 在 columns 前，表示行索引 index 将会根据地区 dist 来划分。
参数 columns 中的列表顺序，school 在 subway 前，表示 index 分完后，列索引先根据学区房的有无来划分，而后再添加有无地铁这个划分标准。

即划分好地区后，求在有无学区房的前提情况下，是否有地铁时的房屋均价。如朝阳区的房子在无学区房的情况下，有地铁和没有地铁时的房屋均价分别是多少。

小结

本文以常见的房价数据集为例，展示了探索分类变量与连续变量的方法，涉及了一些细节数据可视化操作；交叉表，数据透视表，频数统计，分组统计等 Pandas 数据处理操作。这些都是探索数据过程中不可或缺的基础操作，熟练掌握很有必要😀

注：本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~

后续会不断更新常见场景下的 Python 实践
在这里插入图片描述

关注

2
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Python Pandas 分类/连续变量的探索性数据分析（附源码与数据）——pandas 描述性统计，交叉表，数据透视表

这是趣味统计的第 1 期分享作者 l 萝卜正式开始建模与处理数据前，对数据进行探索并有一个初步的认识非常重要，本文将围绕变量探索，展示分类、连续变量，以及两种类型变量结合的探索方法，并展示 Python Pandas 数据处理与可视化中的一些快捷常用骚操作~注：本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~分类变量01 一个分类变量一个分类变量的分析方法可考虑频次和百分比，用饼图或者柱状图表示都可以我们也可以通过设置画布布局来同时显示两
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。