特征工程:在3.1步骤中,从训练数据中删除了两列('DC50 (nM)' 和 'Dmax (%)'),因为测试数据中没有它们。这是确保训练和测试集特征一致性的合理步骤。
处理对象类型:在3.2步骤中,检查了训练集或测试集中的列是否为对象类型(通常表示分类数据)。但是,将对象类型替换为表示是否为空的布尔值可能不是最佳方法。这实际上删除了所有分类信息,并用缺失值的二元指示符替换它。更好的方法可能是使用独热编码、标签编码或目标编码,具体取决于分类特征的基数。
模型训练:在第4步中,使用训练数据(不包括前两列,可能是ID或非特征列)来拟合LightGBM分类器。然后,该模型用于预测测试集的标签,同样排除第一列(可能是ID列)。
保存结果:最后,在第5步中,将预测结果与相应的'uuid'一起保存到CSV文件中。
分类编码:对于分类变量的编码,请考虑使用更复杂的方法,例如对低基数特征使用独热编码,或对高基数特征使用目标编码。
特征缩放:根据数值特征的范围和分布,特征缩放(如标准化或归一化)可能会提高模型性能。
模型验证:执行某种形式的模型验证(如交叉验证)以评估模型的通用性并防止过拟合
超参数调整:希望尝试为LightGBM分类器使用不同的超参数来优化性能。