2018中国高校计算机大赛—大数据挑战赛(top2解题方案)

比赛链接:https://www.kesci.com/home/competition/5ab8c36a8643e33f5138cba4/leaderboard/1

相关链接:https://mp.weixin.qq.com/s/fSRB5T3himBEYrLwW9p62A

比赛介绍:https://mp.weixin.qq.com/s/vYtcnwLtHsb70viejBR3Rw

经过激烈的竞争,从俩千多人,一千二百多支队伍,从初赛到复赛再到决赛的答辩,最终拿到了第二的名次,虽然有点遗憾,但参加这个比赛收获了很多,对大数据领域又有了新的认识,在过程中,最重要的是坚持,有新的想法要敢于尝试。总结一下,个人觉得数据挖掘类的题目更多的应该先去了解数据,理解数据,对所涉及的业务场景有一定的了解,这样在特征工程的时候可以更合理的构造出强特出来,同时掌握一些必备的统计知识,用来构造基础特征也是必备的,除此之外,多学习一些经典算法,对构造特征也非常有用。以下分享一下该比赛的思路。

解题思路 :

题目是给定1-30天时间内的四个日志数据,通过这些数据来预测未来一段时间(即31-37天)活跃(即出现在以上四个日志中任意一个)的用户。经过分析,判定该问题是一个典型的二分类问题,也就是说给定一个用户id,让我们来预测这个用户是活跃或者不活跃。那么首先考虑如何构造出线上线下的训练集以及它的标签,还有线上线下测试集以及它的标签。

一、滑动窗口

     

图(一)

如图一所示,我们采用滑动窗口的算法思想,给定a到b,也就是1-30天区间,我们定义n和m,其中n是构造训练集或验证集的区间,紧接着的后7天是构造标签的区间。其中,n小于等于23,m大于等于0。这样满足这种条件的我们可以滑动出很多个窗口,理论上讲这样我们训练集的样本可以构造出很多个,但是经过仔细分析与思考,我们总结了窗口必须满足以下两个条件

(1)保持线上与线下窗口间隔一致。

  • 6
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值