比赛链接:https://www.kesci.com/home/competition/5ab8c36a8643e33f5138cba4/leaderboard/1
相关链接:https://mp.weixin.qq.com/s/fSRB5T3himBEYrLwW9p62A
比赛介绍:https://mp.weixin.qq.com/s/vYtcnwLtHsb70viejBR3Rw
经过激烈的竞争,从俩千多人,一千二百多支队伍,从初赛到复赛再到决赛的答辩,最终拿到了第二的名次,虽然有点遗憾,但参加这个比赛收获了很多,对大数据领域又有了新的认识,在过程中,最重要的是坚持,有新的想法要敢于尝试。总结一下,个人觉得数据挖掘类的题目更多的应该先去了解数据,理解数据,对所涉及的业务场景有一定的了解,这样在特征工程的时候可以更合理的构造出强特出来,同时掌握一些必备的统计知识,用来构造基础特征也是必备的,除此之外,多学习一些经典算法,对构造特征也非常有用。以下分享一下该比赛的思路。
解题思路 :
题目是给定1-30天时间内的四个日志数据,通过这些数据来预测未来一段时间(即31-37天)活跃(即出现在以上四个日志中任意一个)的用户。经过分析,判定该问题是一个典型的二分类问题,也就是说给定一个用户id,让我们来预测这个用户是活跃或者不活跃。那么首先考虑如何构造出线上线下的训练集以及它的标签,还有线上线下测试集以及它的标签。
一、滑动窗口
图(一)
如图一所示,我们采用滑动窗口的算法思想,给定a到b,也就是1-30天区间,我们定义n和m,其中n是构造训练集或验证集的区间,紧接着的后7天是构造标签的区间。其中,n小于等于23,m大于等于0。这样满足这种条件的我们可以滑动出很多个窗口,理论上讲这样我们训练集的样本可以构造出很多个,但是经过仔细分析与思考,我们总结了窗口必须满足以下两个条件
(1)保持线上与线下窗口间隔一致。