0.700515552017-12-22
方法:
随机0~0.5
结果:0.53335
2017-12-25
方法:5个特征,随机森林
FUser1 线下领取优惠券后消费次数
FUser2 线下消费总次数
FMer1 线下总领取优惠券次数
FMer2 线下总领取优惠券后消费次数
FMer3 线下总消费次数
训练集准确率:0.9584821538771193
结果:0.57166541
2017-12-25
方法:9个特征,随机森林
FUser1 线下领取优惠券后消费次数
FUser2 线下消费总次数
FMer1 线下总领取优惠券次数
FMer2 线下总领取优惠券后消费次数
FMer3 线下总消费次数
FUM1 用户在此商户领取优惠券次数
FUM2 用户在此商户领取优惠券后消费次数
FUM3 用户在此商户领取消费次数
FUM4 用户和此商户距离
训练集准确率:0.9766026572181049
结果:0.57375090,训练集提升比较明显,测试集提高微乎其微,还是过拟合情况比较严重。
2017-12-26
方法:上面5个特征和9个特征的预测结果相加取平均
结果:0.57211081,说明好的方法和不好的方法平均后,性能下降了
2017-12-26
方法:9个特征,使用gbdt模型,参数如下:
gbdt=GradientBoostingRegressor(
loss='ls'
, learning_rate=0.1
, n_estimators=100
, subsample=1
, min_samples_split=2
, min_samples_leaf=1
, max_depth=3
, init=None
, random_state=None
, max_features=None
, alpha=0.9
, verbose=0
, max_leaf_nodes=None
, warm_start=False
)
训练集准确率:0.9766843067668488
结果:0.57230987
貌似没有什么用啊,现阶段应该还是考虑更多的特征。
2017-12-27
方法:9个特征,随机森林
UM1、UM2、UM3缺失值使用平均值代替
结果:0.57327083
貌似也没有什么用呢?
2017-12-27
方法:9个特征,SVM
训练了一夜也没有训练完成,无奈抛弃SVM方法,大数据集上,以后再也不想了。
2017-12-27
今天突然发现随机森林的树居然只有10课,晕,这也叫森林吗?
时间有点来不及了,赶紧修改为40棵数
效果立竿见影:
结果:0.5744481
2017-12-28
修改为1000棵数据
结果:0.57358770 尼玛,居然还降低了,什么鬼
2017-12-29
划分出6个训练和测试集合对,分布训练出6个随机森林(5个特征,20棵数)
使用6个随机森林做回归,将回归值平均
结果:0.57324487
2017-12-30
划分出6个训练和测试集合对,分布训练出6个随机森林(5个特征,20棵数,正负样本1:1抽样)
使用6个随机森林做回归,将回归值平均
结果:0.57032266都没有什么用处……
2018-1-4
划分出6个训练和测试集合对,分布训练出6个随机森林(16个特征,10棵数,正负样本1:1抽样,PCA降维到4)
使用6个随机森林做回归,将回归值平均
结果:0.49847206效果一塌糊涂啊
2018-1-5
划分出6个训练和测试集合对,分布训练出6个随机森林(16个特征,80棵数,正常抽样)
使用6个随机森林做回归,将回归值平均
结果:0.57646588
2018-1-5
test集使用AUC作为评价,根据AUC做了各种优化,最终采样GBDT、正负样本1:6抽样,PCA降维到4,
结果:0.48443151,史上最烂结果,内心一万头神兽跑过
怀疑是自己建立的评价体系出了问题,一定得先把自己的评价结果和线上验证的结果能对接上,才能做下一步!
2018-1-6
test集使用平均AUC作为评价,根据结果做了各种优化,最终采样GBDT、PCA降维到12,test集结果:0.677163
结果:0.68496676 !
2018-1-6
test集使用平均AUC作为评价,根据结果做了各种优化,最终采样GBDT、PCA降维到12,test集结果:0.6804504
结果:0.69836318 !
结果总算正常了,现在只要test集结果提升,线上结果就能提升
2018-1-9
不使用任何test集,直接使用前面的训练参数和方法训练模型,提交结果
结果:0.70051555 晕倒,看了分组没有起到任何作用,就是能告诉自己模型大概水平而已