因为想要去腾讯实习,所以参加了今年的腾讯游戏安全技术竞赛,这个比赛赢了会有一个实习的绿色通道。选了数据分析方向里面的机器学习。
初赛题目很有趣,关于LOL(英雄联盟)的代练检测。
Moba游戏常见的5v5模式,玩家将与其余9名玩家共同组成对局。对局双方各5人,两方队伍通过优先推倒敌方水晶来取得胜利。排位赛的单双模式指:玩家可以选择自己参加排位或以双人组队的形式参加排位赛,比赛成绩都会对自己的段位产生影响。
我们提供某款Moba游戏在2019.03.07当天部分玩家账号,训练集名单已经标注了是否代练账号,未标注的10000个账号作为测试集,同时我们提供2019.02.26-2019.03.07 前10天这些玩家的排位赛数据,选手需要根据历史对局表现来预测2019.03.07当天测试集中的账号是否存在代练行为。
数据下载:https://gslab.qq.com/html/competition/20190311/index.htm
我本身就很喜欢玩LOL,所以做起来也感觉比较有意思,熬了两天夜给做完了,最后准确率86%,召回率73%,score是82
首先看到txt的数据文件,多达仅500W行,最大的数据文件大小约1G,每次load起来太慢了,于是我用pandas读取后转成了numpy的矩阵类型然后直接存成了npy文件,npy存取都是用二进制,之后load的速度会有大大提升。