进阶baseline过程:
1.导入模块
2.数据预处理 (其中要注意的部分:要定义一个空列表drop_cols,用于存储在测试数据集中非空值小于10个的列名)
3.特征工程 (目的是获取更好的训练数据特征 要注意的部分:特征、标签的准备和筛选)
4.模型训练和预测 (要注意的部分:循环执行交叉验证、模型训练和评估)
附加:
交叉验证(Cross-Validation)是一种统计方法,用于评估并提高模型的预测性能,特别是在样本数量有限的情况下。
基本思想:将数据集分成几个子集,每次用一个子集作为测试集,其余子集联合起来作为训练集。这个过程重复进行多次,每次选择不同的子集作为测试集,最终得到多个模型评估结果,然后对这些结果进行平均,得到模型性能的综合评估。