这几天偶然参加了这个比赛项目,分享一下个人的想法,能力有限欢迎大家来讨论学习!
数据来源“数字四川创新大赛-诈骗电话识别”
有同学说进入复赛阶段没法获取数据集了,这是我保存的数据集,仅供大家学习使用![百度网盘]提取码:9asc
数据训练集由如下4个部分组成:
user:用户的一些基础资料
voc:8个月内的通话数据
SMS和APP:8个月的短信和上网数据
测试集和训练集组成类似,但手机话费消费的月份只有一个月
针对以上的数据首先从user中统计了用户的phone_no_m,再根据phone_no_m依次整理通话、短信和上网的数据特征
首先整理VOC中每个phone_no_m通话的频率次数分别把呼入呼出次数、通话总时长进行统计
user=pd.read_csv('./train_user.csv')
print(user.info())
sms=pd.read_csv('./train/train_sms.csv')
print(sms.info())
print(sms.head())
user_m = user['phone_no_m'].values
print(user_m)
sms_up=[]
sms_down=[]
for name in tqdm(user_m):
sms_up.append(sms[(sms['phone_no_m'] == name) & (sms['calltype_id']==1)]['phone_no_m'].count())
sms_down.append(sms[(sms['phone_no_m'] == name) & (sms['calltype_id'] == 2)]['phone_no_m'].count())
user_m=np.array(user_m)
sms_up=np.array(sms_up)
sms_down=np