初赛部分:
训练集:黑白灰三种样本,id+date+297个未知含义特征,特征中有缺失
尝试过的处理方法
灰样本处理
1.将灰样本直接当作黑样本处理,效果特别好(有点玄学啊^-^!)(可能是灰样本中黑样本的比例特别大?)
2.直接暴力删除灰样本(效果不是特别好)
3.直接暴力删除灰样本,将黑样本加大比重(效果木有第一个好!!玄学)
缺失值处理
1.横向纵向查找,看下每个id缺失特征的个数,每类特征缺失的个数,如果是白样本+缺失值特别多的直接删了,反正都是未知特征随缘吧(我想的白样本较多删了没事哈哈)(不错)
2.补全方法:尝试用了均值、众数、中位数、补0(感觉效果都不很好啊....由于是初赛,特征含义也未知,每天提交次数也有限,就木有继续试了)
模型
用的lightgbm
祖传参数来一套,论坛里参考下别的,天池比赛的的特别容易过拟合
练习了下pandas,不过我后面都用数据库了,还是sql顺手,真是 sqlboy ^-^,然后就复赛了
复赛:
主要是特征处理&