上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表
训练数据 | 11.22~11.27U-I集合行为数据 |
对应的大数据表名: temp_fin.temp_tianchi_train1_data
验证数据 | 11.29~12.04U-I集合行为数据 |
对应大数据表名:temp_fin.temp_tianchi_train2_data
预测数据 | 12.13~12.18U-I集合行为数据 | 12.19 U-I集合购买记录 |
数据预处理思路:
1.筛选一些异常的训练数据(只买不看的U-I组合,只看不买的U-I组合)
2.调整训练数据中的正负样本比例