Datawhale 跑通并改进baseline

最新推荐文章于 2024-07-15 12:30:08 发布

曲惶惶

最新推荐文章于 2024-07-15 12:30:08 发布

阅读量219

点赞数 9

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74948246/article/details/140161568

版权

跑通baseline

其实在原本的脚本中，跑通很简单。

但是原本的baseline中，数据预处理有些粗糙，以及用的模型是简单的决策树模型，那么在改进baseline的时候，可以从以下几个方面入手

一、数据不平衡处理

看二分类数据是否平衡，如果不平衡可以采用过采样，欠采样，混合采样等方法进行数据不平衡处理。

二、数据预处理

先进行特征初步筛选，将无关紧要或者无意义的特征删除，再进行数据清洗（处理缺失值，异常值，重复值），之后可以进行数据转换，将非数值型数据转换为数值型数据，再进行详细的特征筛选（相关系数法，方差过滤法，随机森林法等）

三、模型建立

二分类可以选择多种模型，原模型采用的是分类树，属于单基模型，也可以采用集成模型bagging或boosting。

单分类器分为：逻辑回归，朴素贝叶斯，支持向量机，决策树

集成分类器分为：bagging：随机森林

boosting：adboost，xgboost，gbdt，lightgbm

四、模型调参

可以采用交叉验证方法

以上是进行调整的思路

由于时间原因，我先将模型更换，改换为随机森林

代码

from sklearn.ensemble import RandomForestClassifier

# 加载随机森林模型进行训练

model = RandomForestClassifier(n_estimators=100, random_state=42)

model.fit(train.iloc[:, 2:].values, train['Label'])

pred = model.predict(test.iloc[:, 1:].values)

得到结果

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Datawhale 跑通并改进baseline

先进行特征初步筛选，将无关紧要或者无意义的特征删除，再进行数据清洗（处理缺失值，异常值，重复值），之后可以进行数据转换，将非数值型数据转换为数值型数据，再进行详细的特征筛选（相关系数法，方差过滤法，随机森林法等）但是原本的baseline中，数据预处理有些粗糙，以及用的模型是简单的决策树模型，那么在改进baseline的时候，可以从以下几个方面入手。二分类可以选择多种模型，原模型采用的是分类树，属于单基模型，也可以采用集成模型bagging或boosting。由于时间原因，我先将模型更换，改换为随机森林。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。