缺失值可视化处理--missingno

缺失值可视化处理--missingno

说来也是奇怪,这个缺失值检测包我一直装不上,在pycharm和conda中都不行,也不能使用,今天开了这个文档中,就在prompt中检测尝试了一下,哎哟,不错哦,可以了,哈哈。

两个都能安装了。既然可以了,下面就来看看使用的情况吧:

从上面的图中可以看出,缺失值还不少呢,字段birthday是最完成的,其他字段都有缺失。

 

从这张图可以看出,height和rater1及photoID两个字段的区别就在于相关系数为1,也就是说他们之间缺失的情况是相关的,例如,height缺失,则对应记录中的rater1及photoID两个字段也同时会缺失。

这张图就很直观明了了。

这张图是通过条形图来显示缺失值得情况。

这张图是通过热力图来显示缺失值得情况。

树形图使用层次聚类算法通过它们的无效性相关性(根据二进制距离测量)将变量彼此相加。在树的每个步骤,基于哪个组合最小化剩余簇的距离来分割变量。变量集越单调,它们的总距离越接近零,并且它们的平均距离(y轴)越接近零。

 #以后处理
kiwisolver>=1.0.1->matplotlib>=1.4->pandas_profiling) (39.1.0)
twisted 18.7.0 requires PyHamcrest>=1.9.0, which is not installed.
distributed 1.21.8 requires msgpack, which is not installed.

You are using pip version 10.0.1, however version 18.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' comm
and.

总体上,图标分为两个大类,一类是数据比较完整的,一类是缺失值比较多的。要解释此图表,要从上往下的角度阅读。左边数据是比较完整的一类,Y和X9是完整的数据,没有缺失值,所以他们的距离为0;相对于其他变量X11也是比较完整的,距离要比其他变量小,所以先把X11加进来。其他变量以此类推。

右边是缺失值比较严重的,热图相关性里面我们看到了X5和X1.1的相关性系数为1,所以他们的距离为0,首先聚在一起;之后再跟其他进行计算距离,把距离较近的X7加进来,以此类推。

https://blog.csdn.net/Andy_shenzl/article/details/81633356

https://blog.csdn.net/Sarah_N/article/details/78568574

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值