写于京东赛（JData）----如期而至，用户购买日期预测----之后

最新推荐文章于 2023-01-14 12:39:12 发布

Bayes_y

最新推荐文章于 2023-01-14 12:39:12 发布

阅读量2.8k

点赞数 4

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_32502811/article/details/80878146

版权

本文作者参与京东赛后的感悟，分享了在处理时间序列数据时的经验，包括数据集划分、滑窗与模型构建、特征工程的构建。通过时间滑窗构造目标变量，增加样本量和特征丰富度，强调特征工程的重要性。

摘要由CSDN通过智能技术生成

京东赛告一段落。作为一个菜菜鸟，虽然无缘前十，但是也算是有一点小感悟和一些对数据挖掘的认知。毕竟这是第一次接触比较接近实际工程中的数据，而且是时间序列相关的数据。

一. 数据集的划分

在做京东赛的时候，第一眼看到数据集就是懵的，感觉和房屋预测的咋一点都不一样·········训练集也没有，测试集也没有，而且还有好多个表，咋往一块拼呢·········后来看了wepon在天池优惠券核销预测的代码后，才渐渐有了一点思路，在这里感谢wepon大神，代码在这里。

对于我过去接触过的机器学习问题，训练集就是原始数据，测试集就是新数据。我在原始数据和新数据中，挖掘出相同维的特征，区别就是原始数据有标签，而新数据没有标签。用有标签的数据学习出一个模型，再应用到具有相同特征维的没有标签的数据上，预测得到结果。
但对于时序数据来说，就不一样了。

时间序列预测的核心思想是：用过去时间里的数据预测未来时间里的Target。

也就是说，在构建特征的时候，我需要所有的历史数据构建预测特征。有时候，也会有待预测时间段的一些特征，比如在天池的O2O赛中(不过这也是一个leakage，在实际工程中，是不会得到这个数据的)。将历史数据的预测特征，和新数据的一些预测特征结合起来，得到完整的所需要的特征，然后放到模型里面，得到预测结果。

还有一个比较重要的部分就是，负样本的建立。在这里的数据&#x

最低0.47元/天解锁文章

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
写于京东赛（JData）----如期而至，用户购买日期预测----之后

京东赛告一段落。作为一个菜菜鸟，虽然无缘前十，但是也算是有一点小感悟和一些对数据挖掘的认知。毕竟这是第一次接触比较接近实际工程中的数据，而且是时间序列相关的数据。一. 数据集的划分在做京东赛的时候，第一眼看到数据集就是懵的，感觉和房屋预测的咋一点都不一样·········训练集也没有，测试集也没有，而且还有好多个表，咋往一块拼呢·········后来看了wepon在天池优惠券核销预测的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。