缺失值可视化处理--missingno
说来也是奇怪,这个缺失值检测包我一直装不上,在pycharm和conda中都不行,也不能使用,今天开了这个文档中,就在prompt中检测尝试了一下,哎哟,不错哦,可以了,哈哈。
两个都能安装了。既然可以了,下面就来看看使用的情况吧:
从上面的图中可以看出,缺失值还不少呢,字段birthday是最完成的,其他字段都有缺失。
从这张图可以看出,height和rater1及photoID两个字段的区别就在于相关系数为1,也就是说他们之间缺失的情况是相关的,例如,height缺失,则对应记录中的rater1及photoID两个字段也同时会缺失。
这张图就很直观明了了。
这张图是通过条形图来显示缺失值得情况。
这张图是通过热力图来显示缺失值得情况。
树形图使用层次聚类算法通过它们的无效性相关性(根据二进制距离测量)将变量彼此相加。在树的每个步骤,基于哪个组合最小化剩余簇的距离来分割变量。变量集越单调,它们的总距离越接近零,并且它们的平均距离(y轴)越接近零。
#以后处理
kiwisolver>=1.0.1->matplotlib>=1.4->pandas_profiling) (39.1.0)
twisted 18.7.0 requires PyHamcrest>=1.9.0, which is not installed.
distributed 1.21.8 requires msgpack, which is not installed.
You are using pip version 10.0.1, however version 18.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' comm
and.
总体上,图标分为两个大类,一类是数据比较完整的,一类是缺失值比较多的。要解释此图表,要从上往下的角度阅读。左边数据是比较完整的一类,Y和X9是完整的数据,没有缺失值,所以他们的距离为0;相对于其他变量X11也是比较完整的,距离要比其他变量小,所以先把X11加进来。其他变量以此类推。
右边是缺失值比较严重的,热图相关性里面我们看到了X5和X1.1的相关性系数为1,所以他们的距离为0,首先聚在一起;之后再跟其他进行计算距离,把距离较近的X7加进来,以此类推。
https://blog.csdn.net/Andy_shenzl/article/details/81633356
https://blog.csdn.net/Sarah_N/article/details/78568574