Datawhale
天池海洋赛比赛思路
数据预处理
删除一些重复的数据
本身就是位置的数据,其实因为北斗不是每时每刻都开着,所以肯定有缺失数据,此时没有轨迹,但是没法补也不知道,没有做处理
而且当位置发生抖动的时候可能是遇到风浪了,渔船上的天线随风抖动
特征工程:
对x,y,v,d 的简单聚合处理,包括 [‘max’,‘min’,‘mean’,‘std’,‘skew’,‘sum’]、x_1/4、y_3/4、xy_cov
x y 相减的交叉特征
斜率与面积
出海最频繁的时长
整体的时间差
总共多少种hour和date
出现最多的速度和对应的次数
方向与速度的变化,后一天 - 前一天,简单的聚合
每天出海的时长
进行捕捞工作的渔船速度
针对白天的特征
模型融合:
用的xgboost,lightgbm,catboost三模型融合。
融合的方法就是线性组合,找出最优的那种线性组合。
找的方法就是给出60种线性的排列组合,看哪种的分数最高就选那种。
使用的交叉验证是20折的交叉验证(因为数据量比较小,20折可以让训练数据量更大)。