python 判断是否是缺失值_python缺失值可视化处理--missingno

##缺失值
empty_column = []
for e, c in enumerate(df.columns):
    if sum(pd.isnull(df[c]))!=0:
        empty_column.append(c)
        print("feature_no:%d t feature_name:%s t null_num:%d t null_rate: %.2f%%"% (e, c , sum(pd.isnull(df[c])), 
                                                                  100*sum(pd.isnull(df[c]))/len(df[c])))

f5faa6d46d8ad87fe07b5c99050c4c78.png
import missingno as msno
missing = df[empty_column]
msno.matrix(missing, labels=True)

7cf9255cf34683d941e6fd4b2de41dce.png

白色为缺失值

msno.bar(missing)

5812fa19144dfcc27f70816b688ab39a.png

每个变量缺失的比例和数量情况

msno.heatmap(missing)

62a58b3120fd1f8170b54e5841567b01.png

missingno相关性热图措施无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在:数值为1=两个变量一个缺失另一个必缺失;数值为-1=一个变量缺失另一个变量必然不缺失

msno.dendrogram(missing)

a44b8af6f40fd836f134dbe1711a3e12.png

树形图使用层次聚类算法通过它们的无效性相关性(根据二进制距离测量)将变量彼此相加。在树的每个步骤,基于哪个组合最小化剩余簇的距离来分割变量。变量集越单调,它们的总距离越接近零,并且它们的平均距离(y轴)越接近零。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值