数据可视化——观察缺失值

1.缺失值产生产生原因

缺失值的产生原因多种多样,主要分机械原因和人为原因。

机械原因是由机械导致的数据缺失,比如数据存储的失败、存储器损坏、机械故障导致某段时间的数据未能收集(对于定时数据采集而言)。

人为原因是由人的主观失误、历史局限或有意隐瞒造成的数据缺失。

2.观察数据是否存在缺失值

  当我们拿到一个数据集时,我们无法第一时间看出数据集中是否有缺失值,因此本次博客主要介绍7中方法来观察数据集中是否存在缺失值:

首先我们先导入需要的数据:

import numpy as np
import pandas as pd
import missingno as msno

data = {'v1': [2.5, 3, 0.5, np.nan, 5, np.nan, 4.5, np.nan, 7, 3],
        'v2': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'v3': [2, 2, 5, 2, np.nan, 3, np.nan, 1, 2, 1],
        'v4': [3, 1, 3, 5, 2, 3, 5, 1, 2, 1],
        'v5': [4, 4, np.nan, 3, 6, 3, 1, 1, 2, 8],
        'v6': [5, 5, 2, 7, 2, 8,8, 1, 4, 7],
        'v7': [6, 7, 6, 9, 2, 10, 9, 1, 3, 5],}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

data =pd.DataFrame(data,index = labels)
data

运行结果: 

 

 

(1)describe()函数

data.describe()

运行结果:

  我们可以看到第一行count,这一行的每一个数据与其本列的总个数相减即为每一列的缺失值数量。

 

(2)info()函数

data.info()

运行结果:

   上面的第二行的数据10即为每一列的总数,下面框起来的即每一列的非缺失值数量,二者相减即为每一列的缺失值数量

(3) 连接函数:isnull().sum()

data.isnull().sum()

运行结果:

 

   这种方法能够直观的观察出每一列的缺失值数量

(4)missingno库——matrix()函数

msno.matrix(data)

运行结果:

   这是一种将缺失值可视化的方法,可以看到顶上为数据集中的列,当每一列中有缺失值时就会出现白色的条纹,既可以直观的看到缺失值,也能观察其位置。

(5)missingno库——bar()函数

msno.bar(data)

运行结果:

   这是将每一列的数画出柱状图,当一列的数据中出现缺失值时,就会比无缺失值要低,可以从上面直观的观察出来。

(6)missingno库——heatmap()函数

msno.heatmap(data)

运行结果:

  观察数据,我们可以看出当一列有缺失值时就会用热力图表示出来,图中显示出来的是特征之间存在缺失的相关性。

 

(7)missingno库——dendrogram()函数

msno.dendrogram(data)

 运行结果:

   这是一种快速画出一个树状图,通过树状图我们在图上画一条横线,此时我们能对列进行分类,可以看到当一列中有缺失值时,基本会单独一类,然后无缺失值的列分为一类,从而形象的观察出是否有缺失值。

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值