资源下载地址:https://download.csdn.net/download/sheziqiong/85908312
资源下载地址:https://download.csdn.net/download/sheziqiong/85908312
基于移动网络通讯行为的风险用户识别
1 特征工程
训练数据集一共包括四个文件,用户风险标签,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。
测试数据集一共包括三个,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。
初赛与复赛分别使用不同的测试数据集,分为test_A,test_B,将这些训练集与测试集当正负样本平衡处理。
下面介绍的是自己能想到的一些特征。
1.1 用户通话记录数据表
通话表如下图 11用户通话记录表所示(下面3张图片来自比赛主页)
图 1‑1用户通话记录表
对通话数据的考虑主要就是判断用户通话是否规律等,还有挖掘出用户接收的通话的特征。
对用户通话数据处理方法:
1.1.1 预处理
对start_time的时变量做除以2变换,对opp_len进行分组,避免one-hot变换后分布太稀疏(对线性模型有影响),同理对天变量除以5(或者对用户的生活作息时间进行分组).
1.1.2 特征提取
统计特征
-
统计每个用户的号码通话的所有与不同的号码数量,以及与均值的差
-
统计用户通话in、out的不同号码数量,in、out的差值,以及所占比例。
-
统计一些特殊号码,如opp_head为100的,像运营商的号码;170、171虚拟号码段
-
统计不同opp_head的unique_count
-
通话时长的相关统计量,如均值, 最大值,中位数,标准差,最小值等
-
统计不同call_type下的opp_num
-
统计不同opp_len下的opp_num
一些特征的可视化:
通话类型统计数均值:
通话出入度
One-hot编码特征
- 通话类型做one-hot编码,同时与in、out做特征交叉,统计数量
- 对start_time的天变量和时变量做one-hot,统计数量
- 对天变量,统计不同日期的通话数量的相关统计量,如均值, 最大值,中位数,标准差,最小值等
1.2 用户短信记录数据表
用户短信数据表如下图 12用户短信记录数据表
图 1‑2用户短信记录数据表
个人觉得短信记录表比voice表重要一些,主要是被动接收的短信的特征,如opp_head、opp_len,接收的不同号码的数量,主要是一些统计特征,还有对可以分类的做one-hot变换。除此之外,找出它们之间的一些相关性特征进行组合。
对用户短信数据处理方法:
1.2.1 预处理
先统计所有opp_num,再清洗掉opp_head为000的系统短信;对opp_len进行分组,对start_time的时变量和天变量做类似通话数据的处理。
1.2.2 特征提取
统计特征
- 统计每个opp_num所有与不同的号码数量,与均值的差
- 统计用户接收短信in、out的不同号码数量,in、out的差值,以及所占比例。
- 分组统计一些特殊号码的所有与不同的数量以及与均值的差,如opp_head为100的,像运营商的号码;170、171虚拟号码段,106的通知类短信
- 统计不同opp_len下的opp_num数量以及与均值的差
- 统计不同opp_head的数量
一些特征可视化
短信接收出入度:
日期分组的短信变化均值:
One-hot编码特征
- 对start_time的天变量和时变量做one-hot,与in、out做交叉,分别求count和unique_count
1.3 用户网站/App访问记录数据表
用户网站/App访问记录数据表如下图 13用户网站/App访问记录数据表
图 1‑3用户网站/App访问记录数据表
对用户网站/App访问记录数据主要是考虑访问的app/网站的不同的数量,以及访问时间的特征,上传流量等。
对用户网站/App访问记录数据处理方法:
1.3.1 预处理
wa数据有很多缺失值,对wa_date缺失值填充-1做其他类别处理,将天数做除以5变换。求名字长度wa_len,对wa_len分组处理。
1.3.2 特征提取
统计特征
- 统计用户访问的wa_name所有与不同的名字的数量,与均值的差统计用户访问的名字的长度分组的数量。
- 统计用户访问的次数的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计用户访问时长的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计用户上传流量的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计用户下载流量的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计不同opp_head的数量
一些特征可视化
App/网站访问数量均值:
One-hot编码特征
- 对访问的日期进行one-hot编码,与up_flow、visit_cnt,down_flow、做交叉特征,求相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 对访问的类型进行one-hot编码,与up_flow、visit_cnt,down_flow、做交叉特征,求相关统计量,如均值, 最大值,中位数,标准差,最小值等。
多项式特征:
最后根据feature_importance来选择一些特征进行做多项式组合
-
将访问类型为网站的unique_count与sms的in类型的opp_head为106的做二次多项式组合
-
将访问类型为网站的up_flow与sms的in类型的unique_count做二次多项式组合
-
将访问类型为网站的unique_count与sms的in类型的unique_count为与voice的unique_count做二次多项式组合
资源下载地址:https://download.csdn.net/download/sheziqiong/85908312
资源下载地址:https://download.csdn.net/download/sheziqiong/85908312