官方给出的方法
- 查看数据集的样本个数和原始特征维度(使用shape(), columns(), info(), describe())
特殊方法:data_train.head(3).append(data_train.tail(3))
查看头尾数据 - 查看数据集中特征缺失值,唯一值等
查看缺失值
data_train.isnull().any().sum() # how many column is null
查看缺失特征中缺失率大于5%的特征
缺失列的可视化:# nan可视化 missing = data_train.isnull().sum()/len(data_train) missing = missing[missing > 0] missing.sort_values(inplace=True) missing.plot.bar()
这里缺失值很小,可以根据各列情况选择填充。
另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。
查看训练集测试集中特征属性只有一值的特征
one_value_f