【中国大数据算法大赛】基于移动网络通讯行为的风险用户识别

最新推荐文章于 2023-06-11 22:09:46 发布

wangzch7

最新推荐文章于 2023-06-11 22:09:46 发布

阅读量2k

点赞数

本文链接：https://blog.csdn.net/wangzch7/article/details/85240601

版权

本文介绍了中国大数据算法大赛中基于移动网络通讯行为的风险用户识别任务。通过对9999个用户的数据分析，包括通话、短信、网站/App访问记录，利用特征提取和模型调参来构建风险用户判别模型。关键特征集中在voice和sms数据集中，使用LightGBM模型并调整参数。虽然结果不尽如人意，但作者表达了对数据挖掘的热情并期望未来改进。

摘要由CSDN通过智能技术生成

【中国大数据算法大赛】基于移动网络通讯行为的风险用户识别

比赛内容评分算法

比赛按如下公式计算得分：
score = 0.6 × auc + 0.4 × F1
其中：
auc值为在测试集上，根据预测结果按照标准auc定义计算的分值；
F1值为针对测试集中实际标签为1（风险用户）的用户，根据预测结果，按照标准F-measure定义计算的分值。

1.数据来源和使用说明

提供45个连续自然日期间，抽样模拟的9999个用户每天的通话、短信、访问网站/App记录的脱敏数据，基于这些用户的移动网络使用行为，判别用户属于风险用户的可能性。
用户id按照u0001～u9999编号。其中：
• u0001～u4999用户作为训练集，对每个用户给出是否为风险用户的标签（0-非风险用户，1-风险用户），在赛事启动时下发；
• u5000～u6999用户作为初赛阶段测试集A，不带用户风险标签，在初赛阶段下发；
• u7000～u9999用户作为复赛阶段测试集B，不带用户风险标签，在复赛阶段下发。
数据表中部分列存在空值或NULL，少量uid可能在部分记录表中未出现（代表该用户在此期间没有相应的通话、短信或上网行为）需要自行补充。

2.统计特征

统计每个用户的号码通话的所有与不同的号码数量，以及与均值的差
统计用户通话in、out的不同号码数量，in、out的差值，以及所占比例。
统计一些特殊号码，如opp_head为100的，像运营商的号码；170、171虚拟号码段
统计不同opp_head的unique_count
通话时长的相关统计量，如均值，最大值，中位数，标准差，最小值等
统计不同call_type下的opp_num
统计不同opp_len下的opp_num