python金融分析小知识(24)——如何通过可视化的方式查看数据中的缺失值

Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助!

在我前面的这篇文章中我有给大家分享如何查看DataFrame中的空值,具体的文章大家可以看这篇:python金融分析小知识(5)——如何查看DataFrame中的空值

当然采用我前面文章的方法可以比较定量地看出具体的空值数量,那么有没有一种可以通过可视化的方法来大概查看空值的分布呢?

最近我在做探索性数据分析的时候学到了一种通过可视化的方法查看空值分布的方法,下面我们就来介绍一下:

1.读入数据

首先我们先读入数据,然后查看一些数据的基本性质:

import pandas as pd
df = pd.read_csv("train_friday.csv")
df

这一份数据的数据量比较大,而且存在空值。

df.shape
## (550068, 12)

df.dtypes
### 结果
User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object
###

2.查看空值数量 

可以看出这一份数据中有两列的数据的空值数量比较多: 


df.isnull().sum() #空值计数
###
User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            173638
Product_Category_3            383247
Purchase                           0
dtype: int64
###

查看空缺值的占比: 

# 查看空缺值的占比
df.isnull().sum() / df.shape[0]
### 结果
User_ID                       0.000000
Product_ID                    0.000000
Gender                        0.000000
Age                           0.000000
Occupation                    0.000000
City_Category                 0.000000
Stay_In_Current_City_Years    0.000000
Marital_Status                0.000000
Product_Category_1            0.000000
Product_Category_2            0.315666
Product_Category_3            0.696727
Purchase                      0.000000
dtype: float64
###

3.缺失值可视化 

进行缺失值可视化的时候我们需要导入相关的包,具体代码如下:

## 导入缺失值可视化包
import missingno
# 查看缺失值的分布
missingno.matrix(df)

这样之后我们可以看看可视化的结果:

其实上面这个图就显示了空缺值的分布情况,我们可以很明显地看出有两列地空缺值很多! 

# 缺失值可视化
missingno.bar(df,color="blue")

我们来看看柱状图的形式:

 

其实上面这个图我们也可以看出空缺值较多的两列就是柱状图比较矮的那两列哦!

好啦,今天的知识就分享到这里啦!

 

 

 

 

 

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

君子以自强不息python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值