1.导库导数据,探索特征
(1)将特征矩阵和标签分开,确定X和Y
(2)探索数据类型
X.info()
(3)探索缺失值——每个特征中缺失值的比例
X.isnull.mean()
(4)探索标签的分类
np.unique(Y)
2.分集,并优先探索标签
在现实中,应当先分训练集和测试集,再进行数据预处理。因为测试集在现实中往往是不可获得的,或者被假设为不可不可获取的,我们不希望建模的任何过程受到测试集数据的影响,否则的话,就相当于提前告诉模型一部分预测的答案。在这里,为了让案例尽量接近真是的样貌,所以采用了现实中的处理方式:先分训练集和测试集,再一步步进行预处理。
(1)分训练集和测试集,并恢复训练集和测试集的索引
(2)探索标签<