Datawhale 跑通并改进baseline

跑通baseline

其实在原本的脚本中,跑通很简单。

但是原本的baseline中,数据预处理有些粗糙,以及用的模型是简单的决策树模型,那么在改进baseline的时候,可以从以下几个方面入手

一、数据不平衡处理

       看二分类数据是否平衡,如果不平衡可以采用过采样,欠采样,混合采样等方法进行数据不平衡处理。

二、数据预处理

      先进行特征初步筛选,将无关紧要或者无意义的特征删除,再进行数据清洗(处理缺失值,异常值,重复值),之后可以进行数据转换,将非数值型数据转换为数值型数据,再进行详细的特征筛选(相关系数法,方差过滤法,随机森林法等)

三、模型建立

     二分类可以选择多种模型,原模型采用的是分类树,属于单基模型,也可以采用集成模型bagging或boosting。

单分类器分为:逻辑回归,朴素贝叶斯,支持向量机,决策树

集成分类器分为:bagging:随机森林

                             boosting:adboost,xgboost,gbdt,lightgbm

四、模型调参

       可以采用交叉验证方法

以上是进行调整的思路

由于时间原因,我先将模型更换,改换为随机森林

代码   

from sklearn.ensemble import RandomForestClassifier

#  加载随机森林模型进行训练

model = RandomForestClassifier(n_estimators=100, random_state=42)

model.fit(train.iloc[:, 2:].values, train['Label'])

pred = model.predict(test.iloc[:, 1:].values)

得到结果

  • 9
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值