#AI夏令营 #Datawhale #夏令营分子Ai预测赛笔记task2

松间敲玉花

已于 2024-07-06 23:16:24 修改

阅读量277

点赞数 5

文章标签：人工智能深度学习

于 2024-07-03 21:05:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84247776/article/details/140162258

版权

特征工程：在3.1步骤中，从训练数据中删除了两列（'DC50 (nM)' 和 'Dmax (%)'），因为测试数据中没有它们。这是确保训练和测试集特征一致性的合理步骤。

处理对象类型：在3.2步骤中，检查了训练集或测试集中的列是否为对象类型（通常表示分类数据）。但是，将对象类型替换为表示是否为空的布尔值可能不是最佳方法。这实际上删除了所有分类信息，并用缺失值的二元指示符替换它。更好的方法可能是使用独热编码、标签编码或目标编码，具体取决于分类特征的基数。

模型训练：在第4步中，使用训练数据（不包括前两列，可能是ID或非特征列）来拟合LightGBM分类器。然后，该模型用于预测测试集的标签，同样排除第一列（可能是ID列）。

保存结果：最后，在第5步中，将预测结果与相应的'uuid'一起保存到CSV文件中。

分类编码：对于分类变量的编码，请考虑使用更复杂的方法，例如对低基数特征使用独热编码，或对高基数特征使用目标编码。

特征缩放：根据数值特征的范围和分布，特征缩放（如标准化或归一化）可能会提高模型性能。

模型验证：执行某种形式的模型验证（如交叉验证）以评估模型的通用性并防止过拟合

超参数调整：希望尝试为LightGBM分类器使用不同的超参数来优化性能。

松间敲玉花

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#AI夏令营 #Datawhale #夏令营分子Ai预测赛笔记task2

处理对象类型：在3.2步骤中，检查了训练集或测试集中的列是否为对象类型（通常表示分类数据）。更好的方法可能是使用独热编码、标签编码或目标编码，具体取决于分类特征的基数。特征工程：在3.1步骤中，从训练数据中删除了两列（'DC50 (nM)' 和 'Dmax (%)'），因为测试数据中没有它们。模型训练：在第4步中，使用训练数据（不包括前两列，可能是ID或非特征列）来拟合LightGBM分类器。分类编码：对于分类变量的编码，请考虑使用更复杂的方法，例如对低基数特征使用独热编码，或对高基数特征使用目标编码。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。