平安极客挑战赛总结(极度不平衡样本预测总结)

首先还是要感谢平安的这次比赛,让自己对数据处理有了更深层次的一些了解。话不多说,进入正题。最优成绩为0.2878.主要比赛流程(结合自身经验总结)1.基本数据的分析EDA以及随机森林或者Xgboost方法进行对应主要特征的提取。(红色部分是参赛心得)2.在对有序多值特征时,需要结合实际问题来对具体参数进行map赋值处理,对于多值无序的特征需要进行独热编码处理(one-hot编码),这样不仅扩充了特...
摘要由CSDN通过智能技术生成

首先还是要感谢平安的这次比赛,让自己对数据处理有了更深层次的一些了解。

话不多说,进入正题。最优成绩为0.2878.

主要比赛流程(结合自身经验总结)

1.基本数据的分析EDA以及随机森林或者Xgboost方法进行对应主要特征的提取(红色部分是参赛心得)

2.在对有序多值特征时,需要结合实际问题来对具体参数进行map赋值处理,对于多值无序的特征需要进行独热编码处理(one-hot编码),这样不仅扩充了特征,也排除了人为设置对应关系带来的干扰。

3.在计算机硬件允许的情况下,还是要对数据进行SMOTE方法的上下采样,从理论上进行对数据的扩充,减少样本分布不均衡造成的影响。(虽然自己没有复现出来)

4.本人思路,从结果来看,分数还是可以接受的。自己出发点是既然有70W+的正样本和3293个负样本,单方面认定70W+的正样本是大量的无用的重复特征,增加了特征提取和模型训练的难度。所以随机对7

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值