大数据挑战赛-鼠标轨迹识别

声明:本文属于原创,如想转载,请务必在抬头注明出处。

大数据挑战赛-鼠标轨迹识别,竞赛官网:http://bdc.saikr.com/c/cql/34541

1.我们看一下整个竞赛的详情

赛题描述

      鼠标轨迹识别当前广泛运用于多种人机验证产品中,不仅便于用户的理解记忆,而且极大增加了暴力破解难度。但攻击者可通过黑产工具产生类人轨迹批量操作以绕过检测,并在对抗过程中不断升级其伪造数据以持续绕过同样升级的检测技术。我们期望用机器学习算法来提高人机验证中各种机器行为的检出率,其中包括对抗过程中出现的新的攻击手段的检测。

比赛数据

     本题目数据来源于某人机验证产品采集的鼠标轨迹,经过脱敏处理,数据分为3部分(数据量分别为3000条,10万,200万)。

     赛事分为三个阶段(初赛、复赛、决赛答辩):5月26日初赛提供3000条数据作为训练样本,供参赛者下载进行建模和模型优化,同时提供10万条正式比赛数据供下载评测,识别结果为初赛得分;复赛提供200万条比赛数据(不可下载,数据不可见,仅供评测),识别结果为复赛得分;决赛将以现场答辩会的形式进行。

【训练数据】

训练数据表名称:dsjtzs_txfz_training

字段

类型

解释

a1

bigint

编号id

a2

string

鼠标移动轨迹(x,y,t)

a3

string

目标坐标(x,y)

label

string

类别标签:1-正常轨迹,0-机器轨迹

训练样例数据:见 dsjtzs_txfz_training_sample.txt

【测试数据】

初赛测试表名称:dsjtzs_txfz_test1

复赛测试表名称:dsjtzs_txfz_test2

字段

类型

解释

a1

bigint

编号id

a2

string

鼠标移动轨迹(x,y,t)

a3

string

目标坐标(x,y)

测试样例数据:见 dsjtzs_txfz_test_sample.txt

测评标准

选手请将识别为机器行为的编号id提交到计算平台,需要提交的结果表,只包含一个字段:编号id。

初赛提交表名:dsjtzs_txfzjh_preliminary

复赛提交表名:dsjtzs_txfzjh _semifinal

设定Precision为P,Recall为R,白样本为正常轨迹,黑样本为机器轨迹其中:

P = 判黑的数据中真正为黑的数量/判黑的数据总量,

R = 判黑的数据中真正为黑的数量/真实黑数据总量,

比如10w条数据,其中8w条为白样本,2w条为黑样本,参赛者一共将1w条判断为黑样本(其中真正的黑样本有8000条,错将2000条白样本判黑),那么,

P=8000/10000 = 80%,

R=8000/20000=40%,

参赛队伍最终得分F = 5PR/(2P+3R)*100。最终排名按照F值评判,F值越大,代表结果越优,排名越靠前。

2.竞赛的进程安排

初赛(5月26日—7月21日)

(1)参赛队伍可从大赛官方网站下载数据,在本地进行算法设计和调试,规定时间内在报名官网提交结果,每支队伍在一天内只能提交一次结果;

(2)5月26日起,系统向选手开放训练样本数据3000条(2600白样本,400条黑样本)供参赛者下载进行建模和模型优化,同时提供正式比赛数据10万条供参赛者下载评测;

复赛(7月25日-8月14日)

(1)所有比赛数据不可下载,选手需在腾讯数据平台部DIX平台上完成数据处理、建模、算法调试、产出结果等所有环节,可使用基于Spark、xgBoost及平台提供的机器学习相关基础算法。

(2)7月25日起系统提供200万条正式比赛数据(对参赛选手不可见,仅供平台对参赛作品进行评测);

决赛(8月20日)

1.  决赛将以现场答辩会的形式进行,具体安排另行通知;

2.  参赛队伍应提前准备现场答辩材料,包括PPT、算法代码;

综上所述:

每个竞赛的阶段数据集情况
比赛阶段 训练集(条) 测试集(条)
初赛(stage1) 3000 100000
初赛(stage2) 3000 100000
复赛 3000 2000000

3.训练数据和测试数据如下所示:

训练数据

70 276,2555,1234;290,2555,1261;339,2555,1306;374,2555,1357;409,2555,1405;430,2555,1456;451,2555,1567;451,2555,1879;458,2555,2338;479,2555,2365;507,2555,2404;591,2555,2458;745,2568,2509;801,2568,2557;822,2568,2608;829,2568,2656; 643.5,553 1
75 262,2503,316;262,2516,376;297,2516,406;353,2516,439;416,2490,472;493,2490,502;605,2477,532;717,2425,565;794,2412,598;857,2412,628;934,2412,664;955,2412,691;990,2412,724;1018,2412,757;1025,2412,787;1039,2412,880;1060,2412,913;1067,2412,946;1095,2386,1006;1109,2386,1069;1123,2386,1129;1130,2386,1312;1123,2386,2035;1109,2386,2215;1095,2386,2395;1088,2386,2608;1074,2386,2638;1067,2386,2671;1060,2386,2704;1053,2386,2764;1046,2399,2797;1039,2399,3937; 843.0,358 1
249 612,2607,352;836,2607,724;871,2607,1165;885,2607,2341;899,2607,2797;913,2607,3328;927,2607,3706;934,2607,4162;941,2607,4621;948,2607,5053;969,2607,5629;969,2620,8749;962,2620,10234;920,2620,11749;913,263
  • 6
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
2023年Mathorcup大数据挑战赛赛道A将是一场激动人心的竞赛。本次比赛旨在鼓励参赛者运用大数据技术解决实际问题,并推动数据科学在各行各业的应用。以下是我对这个比赛赛道的一些见解: 首先,比赛赛道A将关注某个特定领域的大数据分析,可能是金融、医疗、物流等等。参赛者需要运用数据挖掘、机器学习等技术,对相关数据集进行分析和建模,以解决特定领域内的难题。 其次,参赛者需要具备良好的数据分析能力和工程实践经验。他们可能需要处理大规模的数据集,进行数据清洗、特征提取和模型构建等工作。同时,他们还需要选取合适的算法和模型,并通过实验和优化来提高模型的准确性和效率。 此外,比赛要求参赛者具备良好的团队合作和沟通能力。因为在实际项目中,数据科学家往往需要与数据工程师、业务团队等进行紧密合作,共同解决问题。因此,团队之间的协作和交流能力将成为获胜的关键因素之一。 最后,本次比赛的评分标准很可能是多样化的。除了数据分析的准确性和效果外,评审团可能还会考虑参赛者的创新性、算法设计的合理性、代码的规范性等。因此,参赛者需要在综合能力上有所准备,不仅要关注具体问题的解决,还要注重整体方案的优化和优化思路的创新。 总而言之,2023年的Mathorcup大数据挑战赛赛道A将是一场对数据科学者们来说难得的机会。通过这次比赛,参赛者将不仅可以提升自己的数据分析技能,还可以结识更多的行业专家和同行,并为实际问题的解决贡献自己的力量。希望这场比赛能够激发更多人对大数据挖掘和应用的热情,推动科技的进步和社会的发展。
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值