##缺失值
empty_column = []
for e, c in enumerate(df.columns):
if sum(pd.isnull(df[c]))!=0:
empty_column.append(c)
print("feature_no:%d t feature_name:%s t null_num:%d t null_rate: %.2f%%"% (e, c , sum(pd.isnull(df[c])),
100*sum(pd.isnull(df[c]))/len(df[c])))
import missingno as msno
missing = df[empty_column]
msno.matrix(missing, labels=True)
白色为缺失值
msno.bar(missing)
每个变量缺失的比例和数量情况
msno.heatmap(missing)
missingno
相关性热图措施无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在:数值为1=两个变量一个缺失另一个必缺失;数值为-1=一个变量缺失另一个变量必然不缺失
msno.dendrogram(missing)
树形图使用层次聚类算法通过它们的无效性相关性(根据二进制距离测量)将变量彼此相加。在树的每个步骤,基于哪个组合最小化剩余簇的距离来分割变量。变量集越单调,它们的总距离越接近零,并且它们的平均距离(y轴)越接近零。