第一名解决方案:https://www.kaggle.com/c/favorita-grocery-sales-forecasting/discussion/47582
1.样本选择
仅采用2017年的数据提取特征和构建样本。
训练数据:20170531 - 20170719 or 20170614 - 20170719, 不同的模型采用不同的数据集。
验证集是20170726 - 20170810
2.预训练
用0填充缺失值。
3.特征工程
1)基本特征
·类别特征:商店、商品等。
·促销
·周几
2)数值特征
·时间窗口
·最近的天数:[1,3,5,7,14,30,60,140]
·相同的时间窗口:[1] * 16, [7] * 20…
·key:store x item, item, store x class
·target: promotion, unit_sales, zeros
·方法:
mean, median, max, min, std
days since last appearance
difference of mean value between adjacent time windows(only