大数据挑战赛历程与总结随笔

昨日,随着决赛答辩的结束,大数据挑战赛落下最终的帷幕,虽然并没有进入决赛,但相对于我这个接触机器学习不到半年的人来说,第一次参赛能拿到优胜奖以及一份腾讯的定制礼品,我还是比较满意的。有幸在决赛答辩现场瞻仰各位大神的各种骚操作,感想颇多,借此机会稍微整理一下整个比赛的收获。

这个比赛类型是安全赛,要求通过建模进行鼠标轨迹识别,识别出鼠标轨迹是属于人的还是机器的,类似于反黑客。这个比赛的难点在于训练数据少,训练数据黑白样本比例是13:2,而初赛测试数据大约是训练数据的33倍,复赛的测试数据更是训练数据的660倍左右,这对于模型的泛化能力以及对黑白样本比例不均衡的敏感度提出了很高的要求。

初赛回顾
因为是第一次参加这种大数据挑战赛,自己接触机器学习的时间也比较短,所以刚开始面对这个题目的时候还是比较懵逼的,可视化一条条轨迹,只能从直观上觉得貌似人和机器轨迹还是有一定的区分度的,可是这也仅仅是看上去而已,如何将这种区分量化变得十分重要,也就是特征工程。记得当初也没有什么具体的从哪个方向入手提取特征的思路,只是碰碰运气的提取了一些特征,然后用sklearn中所提供的支持向量机、随机森林等算法挨个尝试,然后提交评分结果可想而知的低。

后来,瞅着看了好多轨迹图像,想着可不可以用CNN试试,那些特征不就无所遁形了么?相对于前面自己找的一些特征用传统模型跑出来的结果,效果确实好不少。这里需要提一下,如何将一条由许多个点所组成的轨迹数据转化为图像,我的方案是将鼠标轨迹点的绝对坐标转化为相对坐标,也就是类似于最大最小化处理,然后都固定在一个50×50的方格中,这样每条轨迹就转换成一张张图片了。然而,CNN的参数的调节,结构的变换等等手段,都对于成绩的提升并没有起到很好的效果。这个时候,初赛已经进入了中期,我知道,还是得从数据预处理、特征工程入手。

后来,有位大佬公开了一个baseline的代码,说实话,我是非常感谢那位同学的,他的这个baseline对我来说可以说是非常及时,让我对整个比赛的思路有了更清楚的认识,我从中清楚的认知了,特征工程需要从多方面进行深入挖掘,比如数据本身特征、轨迹行为特征等角度去建立模型。后来经过实践,多方面提取特征,得到了很棒的结果。决赛答辩现场,记得有位大佬说过,“特征决定模型的上限,而模型只是逼近这个上限而已”,现在想想确实很有道理。

复赛回顾
复赛可以说是难熬并且是一团糟。前面好几天都在熟悉线上平台的使用,后面熟悉了平台后,复写初赛下线的代码得分也很低,明白初赛的特征模型对于复赛的数据很有可能不适用!也就意味着短时间内需要重新构建新的特征模型,可以说当时的内心是奔溃的!后来,绞尽脑汁,尝试了疯狂怼特征、增加数据集、分别用两套特征去建模组合模型等方案,可是效果都不好!就这样复赛也就结束了……

总结
决赛答辩现场,聆听各位大佬的各种骚操作,增长了不少“姿势”,结合自己的整个比赛历程,最后总结以下几点经验:

  • 需要从数据本身、业务本身等多方面进行挖掘;
  • 规则模型有时候会很管用;
  • 特征选择与组合决定模型的上限,而模型只是逼近这个上限而已;
  • 模型训练与预测过程中,有时候也需要很多小技巧去避免过拟合以及增加模型的泛化能力,比如多套特征的模型组合,随机迭代添加训练数据集等。

总的来说,这次比赛还是收获颇多的,最后还是要感谢那位无私提供baseline的大佬,以及此次比赛的工作人员和老师,还有自己的队友!嗯,这只是开始!

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值