#AI夏令营 #Datawhale #夏令营分子Ai预测赛笔记task2

特征工程:在3.1步骤中,从训练数据中删除了两列('DC50 (nM)' 和 'Dmax (%)'),因为测试数据中没有它们。这是确保训练和测试集特征一致性的合理步骤。

处理对象类型:在3.2步骤中,检查了训练集或测试集中的列是否为对象类型(通常表示分类数据)。但是,将对象类型替换为表示是否为空的布尔值可能不是最佳方法。这实际上删除了所有分类信息,并用缺失值的二元指示符替换它。更好的方法可能是使用独热编码、标签编码或目标编码,具体取决于分类特征的基数。

模型训练:在第4步中,使用训练数据(不包括前两列,可能是ID或非特征列)来拟合LightGBM分类器。然后,该模型用于预测测试集的标签,同样排除第一列(可能是ID列)。

保存结果:最后,在第5步中,将预测结果与相应的'uuid'一起保存到CSV文件中。

分类编码:对于分类变量的编码,请考虑使用更复杂的方法,例如对低基数特征使用独热编码,或对高基数特征使用目标编码。

特征缩放:根据数值特征的范围和分布,特征缩放(如标准化或归一化)可能会提高模型性能。

模型验证:执行某种形式的模型验证(如交叉验证)以评估模型的通用性并防止过拟合

超参数调整:希望尝试为LightGBM分类器使用不同的超参数来优化性能。ed6198e7dd3943e0ba375b4a823e11a8.png

 

 

 

 

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值