大数据挑战赛-鼠标轨迹识别

最新推荐文章于 2024-07-28 16:14:49 发布

Jeo_dmy

最新推荐文章于 2024-07-28 16:14:49 发布

阅读量8.8k

点赞数 6

分类专栏：机器学习文章标签：打数据竞赛鼠标轨迹识别特征匹配

本文链接：https://blog.csdn.net/duyuan6949/article/details/81125665

版权

本文介绍了大数据挑战赛中关于鼠标轨迹识别的任务，涉及赛题描述、数据来源、测评标准、竞赛进程和特征提取方法。参赛者需通过机器学习算法提高轨迹识别准确率，数据包括训练和测试集，特征提取包括统计特性、速度和加速度等。

摘要由CSDN通过智能技术生成

声明：本文属于原创，如想转载，请务必在抬头注明出处。

大数据挑战赛-鼠标轨迹识别，竞赛官网：http://bdc.saikr.com/c/cql/34541

1.我们看一下整个竞赛的详情

赛题描述

鼠标轨迹识别当前广泛运用于多种人机验证产品中，不仅便于用户的理解记忆，而且极大增加了暴力破解难度。但攻击者可通过黑产工具产生类人轨迹批量操作以绕过检测，并在对抗过程中不断升级其伪造数据以持续绕过同样升级的检测技术。我们期望用机器学习算法来提高人机验证中各种机器行为的检出率，其中包括对抗过程中出现的新的攻击手段的检测。

比赛数据

本题目数据来源于某人机验证产品采集的鼠标轨迹，经过脱敏处理，数据分为3部分（数据量分别为3000条，10万，200万）。

赛事分为三个阶段（初赛、复赛、决赛答辩）：5月26日初赛提供3000条数据作为训练样本，供参赛者下载进行建模和模型优化，同时提供10万条正式比赛数据供下载评测，识别结果为初赛得分；复赛提供200万条比赛数据（不可下载，数据不可见，仅供评测），识别结果为复赛得分；决赛将以现场答辩会的形式进行。

【训练数据】

训练数据表名称：dsjtzs_txfz_training

字段	类型	解释
a1	bigint	编号id
a2	string	鼠标移动轨迹(x,y,t)
a3	string	目标坐标(x,y)
label	string	类别标签：1-正常轨迹，0-机器轨迹

训练样例数据：见 dsjtzs_txfz_training_sample.txt

【测试数据】

初赛测试表名称：dsjtzs_txfz_test1

复赛测试表名称：dsjtzs_txfz_test2

字段	类型	解释
a1	bigint	编号id
a2	string	鼠标移动轨迹(x,y,t)
a3	string	目标坐标(x,y)

测试样例数据：见 dsjtzs_txfz_test_sample.txt

测评标准

选手请将识别为机器行为的编号id提交到计算平台，需要提交的结果表，只包含一个字段：编号id。

初赛提交表名：dsjtzs_txfzjh_preliminary

复赛提交表名：dsjtzs_txfzjh _semifinal

设定Precision为P，Recall为R，白样本为正常轨迹，黑样本为机器轨迹其中：

P = 判黑的数据中真正为黑的数量/判黑的数据总量，

R = 判黑的数据中真正为黑的数量/真实黑数据总量，

比如10w条数据，其中8w条为白样本，2w条为黑样本，参赛者一共将1w条判断为黑样本（其中真正的黑样本有8000条，错将2000条白样本判黑），那么，

P=8000/10000 = 80%，

R=8000/20000=40%，

参赛队伍最终得分F = 5PR/(2P+3R)*100。最终排名按照F值评判，F值越大，代表结果越优，排名越靠前。

2.竞赛的进程安排

初赛（5月26日—7月21日）

（1）参赛队伍可从大赛官方网站下载数据，在本地进行算法设计和调试，规定时间内在报名官网提交结果，每支队伍在一天内只能提交一次结果；

（2）5月26日起，系统向选手开放训练样本数据3000条（2600白样本，400条黑样本）供参赛者下载进行建模和模型优化，同时提供正式比赛数据10万条供参赛者下载评测；

复赛（7月25日-8月14日）

（1）所有比赛数据不可下载，选手需在腾讯数据平台部DIX平台上完成数据处理、建模、算法调试、产出结果等所有环节，可使用基于Spark、xgBoost及平台提供的机器学习相关基础算法。

（2）7月25日起系统提供200万条正式比赛数据（对参赛选手不可见，仅供平台对参赛作品进行评测）；

决赛（8月20日）

1. 决赛将以现场答辩会的形式进行，具体安排另行通知；

2. 参赛队伍应提前准备现场答辩材料，包括PPT、算法代码；

综上所述：

每个竞赛的阶段数据集情况
比赛阶段	训练集（条）	测试集（条）
初赛（stage1）	3000	100000
初赛（stage2）	3000	100000
复赛	3000	2000000

3.训练数据和测试数据如下所示：

训练数据：

70 276,2555,1234;290,2555,1261;339,2555,1306;374,2555,1357;409,2555,1405;430,2555,1456;451,2555,1567;451,2555,1879;458,2555,2338;479,2555,2365;507,2555,2404;591,2555,2458;745,2568,2509;801,2568,2557;822,2568,2608;829,2568,2656; 643.5,553 1
75 262,2503,316;262,2516,376;297,2516,406;353,2516,439;416,2490,472;493,2490,502;605,2477,532;717,2425,565;794,2412,598;857,2412,628;934,2412,664;955,2412,691;990,2412,724;1018,2412,757;1025,2412,787;1039,2412,880;1060,2412,913;1067,2412,946;1095,2386,1006;1109,2386,1069;1123,2386,1129;1130,2386,1312;1123,2386,2035;1109,2386,2215;1095,2386,2395;1088,2386,2608;1074,2386,2638;1067,2386,2671;1060,2386,2704;1053,2386,2764;1046,2399,2797;1039,2399,3937; 843.0,358 1
249 612,2607,352;836,2607,724;871,2607,1165;885,2607,2341;899,2607,2797;913,2607,3328;927,2607,3706;934,2607,4162;941,2607,4621;948,2607,5053;969,2607,5629;969,2620,8749;962,2620,10234;920,2620,11749;913,263