假设训练集(带有训练标签)为df_train ,测试集为test_df,对二者进行上下合并,便于进行特征的处理。合并后的数据为all_df
现在想从df_all中抽出训练集:
df_train = df_all[~df_all['label'].isnull()]
~的意思就是取反,只要标签不为空值的,就是训练集
df_test = df_all[df_all['label'].isnull()]
标签为空值的自然就是测试集了。
我之前进行这种操作都是直接记下训练集最后一位的序号再分离,太过笨拙。上述方法值得借鉴。