初赛第一名,决赛第6名
没能去答辩,就瞎扯一下
初赛代码:https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning
比赛数据:链接: https://pan.baidu.com/s/1i55YPpF 密码: jxcp
预处理:删除双11,双12的数据,然后前面的数据往后移动一天填补,将不同趋势的商品聚类,对规律相同的簇单独建模分析
特征:因为数据量少,所以采用滑动窗口提取特征
前2周的数据提取特征,后两周求和作为label,滑动10个窗口
特征是求的最近k天商品的一些统计量,排名,占比
做一些多项式交叉特征
商品的补多补少成本多相似组合
trick:
商品成本相加作为样本权重
线下训练模型预测训练集,成本高的商品视作噪声从训练集中去除
单独分析发现这部分样本变化较大,考虑使用比较稳定的规则处理这部分样本
特征选择:xgb选择排名topk的特征,计算相似度,去除冗余特征
模型:使用LR + SVR +RF +GBRT+XGBOOST 40多个模型,按照商品成本做融合
补多成本大,则选择min(models)。补少成本大选择max(models)
规则:补多成本大,则选择min(最近2周)。补少成本大选择max(最近2周)