1、在构建模型之前首先需要确定模型构建所需的数据集
训练集:用于训练模型
验证集:模型训练过程中单独留出的样本集,用于初步查看模型效果,是否过拟合,进一步调参
测试集:用来评估模最终模型的泛化能力,但不能作为调参、选择特征等算法相关的选择的依据。一般取与训练和测试不同时间段的数据,查看模型实际应用效果及随时间变化情况。
三类数据构建的Python代码案例:
# 先根据有业务价值的时间将测试数据与训练、验证数据拆分
data_model_train = data[data['time'] <= '2023-12-23']
data_model_time_test = data[data['time'] > '2023-12-23']
# 处理跨时间测试数据
## 提取行标签、结果标签y
data_model_time_test_index = data_model_time_test['index']
data_model_time_test_y = data_model_time_test['y']
## 剔除模型验证时不需要的字段(需与最终模型训练所需字段保持一致,例如行标签列、结果标签列剔除)
delete_list = ['column1','column2','column3']
time_test_x = data_model_time_test.drop(delete_list, axis=1).values # 其中values将数据表转换成矩阵入模型
time_test_y = data_model_time_test_y
# 处理训练、验证数据(一般将数据进行随机7:3分)
## 数据