【中国大数据算法大赛】基于移动网络通讯行为的风险用户识别
比赛内容评分算法
比赛按如下公式计算得分:
score = 0.6 × auc + 0.4 × F1
其中:
auc值为在测试集上,根据预测结果按照标准auc定义计算的分值;
F1值为针对测试集中实际标签为1(风险用户)的用户,根据预测结果,按照标准F-measure定义计算的分值。
1.数据来源和使用说明
提供45个连续自然日期间,抽样模拟的9999个用户每天的通话、短信、访问网站/App记录的脱敏数据,基于这些用户的移动网络使用行为,判别用户属于风险用户的可能性。
用户id按照u0001~u9999编号。其中:
• u0001~u4999用户作为训练集,对每个用户给出是否为风险用户的标签(0-非风险用户,1-风险用户),在赛事启动时下发;
• u5000~u6999用户作为初赛阶段测试集A,不带用户风险标签,在初赛阶段下发;
• u7000~u9999用户作为复赛阶段测试集B,不带用户风险标签,在复赛阶段下发。
数据表中部分列存在空值或NULL,少量uid可能在部分记录表中未出现(代表该用户在此期间没有相应的通话、短信或上网行为)需要自行补充。
2.统计特征
统计每个用户的号码通话的所有与不同的号码数量,以及与均值的差
统计用户通话in、out的不同号码数量,in、out的差值,以及所占比例。
统计一些特殊号码,如opp_head为100的,像运营商的号码;170、171虚拟号码段
统计不同opp_head的unique_count
通话时长的相关统计量,如均值, 最大值,中位数,标准差,最小值等
统计不同call_type下的opp_num
统计不同opp_len下的opp_num
3.任务描述
<