Datawhale 赛题理解

天池海洋赛比赛思路

数据预处理
删除一些重复的数据
本身就是位置的数据,其实因为北斗不是每时每刻都开着,所以肯定有缺失数据,此时没有轨迹,但是没法补也不知道,没有做处理
而且当位置发生抖动的时候可能是遇到风浪了,渔船上的天线随风抖动

特征工程:
对x,y,v,d 的简单聚合处理,包括 [‘max’,‘min’,‘mean’,‘std’,‘skew’,‘sum’]、x_1/4、y_3/4、xy_cov
x y 相减的交叉特征
斜率与面积
出海最频繁的时长
整体的时间差
总共多少种hour和date
出现最多的速度和对应的次数
方向与速度的变化,后一天 - 前一天,简单的聚合
每天出海的时长
进行捕捞工作的渔船速度
针对白天的特征

模型融合:
用的xgboost,lightgbm,catboost三模型融合。
融合的方法就是线性组合,找出最优的那种线性组合。
找的方法就是给出60种线性的排列组合,看哪种的分数最高就选那种。
使用的交叉验证是20折的交叉验证(因为数据量比较小,20折可以让训练数据量更大)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值