DataFound 2019用户画像竞赛分析

最新推荐文章于 2022-05-08 14:36:34 发布

湖南大学研究生-杜敏

最新推荐文章于 2022-05-08 14:36:34 发布

阅读量5.2k

点赞数

分类专栏：机器学习 DataFound 竞赛文章标签： DataFound 用户画像竞赛机器学习

本文链接：https://blog.csdn.net/qq_20001941/article/details/88314512

版权

本文分析了DataFound 2019用户画像竞赛，重点探讨了数据解释、特征提取方法，如充值金额与消费稳定性的计算，以及话费使用率等。通过求和函数，计算了列和行的数据总和，为特征分析提供了依据。代码实现和特征分析结果是关键部分。

摘要由CSDN通过智能技术生成

DataFound 2019用户画像竞赛分析

1. 数据解释

列对应的中文

['用户编码', '用户实名制是否通过核实', '用户年龄', '是否大学生客户', '是否黑名单客户', '是否4G不健康客户','用户网龄（月）', '用户最近一次缴费距今时长（月）', '缴费用户最近一次缴费金额（元）', '用户近6个月平均消费值（元）','用户账单当月总费用（元）', '用户当月账户余额（元）', '缴费用户当前是否欠费缴费', '用户话费敏感度', '当月通话交往圈人数','是否经常逛商场的人', '近三个月月均商场出现次数', '当月是否逛过福州仓山万达', '当月是否到过福州山姆会员店', '当月是否看电影','当月是否景点游览', '当月是否体育场馆消费', '当月网购类应用使用次数', '当月物流快递类应用使用次数','当月金融理财类应用使用总次数', '当月视频播放类应用使用次数', '当月飞机类应用使用次数', '当月火车类应用使用次数','当月旅游资讯类应用使用次数', '信用分']

列对应的英文

['uid','true_name_flag','age','uni_student_flag','blk_list_flag','4g_unhealth_flag','net_age_till_now','top_up_month_diff','top_up_amount','recent_6month_avg_use','total_account_fee','curr_month_balance','curr_overdue_flag','cost_sensitivity','connect_num','freq_shopping_flag','recent_3month_shopping_count','wanda_flag','sam_flag','movie_flag','tour_flag','sport_flag','online_shopping_count','express_count','finance_app_count','video_app_count','flight_count','train_count','tour_app_count','score']

2. 特征提取

充值金额：
- 整数和小数对应不同的充值渠道。比如说整数对应现金渠道，小数对应在线支付。
算充话费的稳定性
- 用户账单当月总费用（元） / 用户近6个月平均消费值（元）
当月话费使用率
- 当月话费总额 / 当月剩余话费
计算除用户ID以外的所有的列的和
- 整体考虑

3. 用到的求和函数

计算各列数据总和并作为新列添加到末尾

df['col_sum'] = df.apply(lambda x: x.sum(), axis=1)

计算各行数据总和并作为新行添加到末尾

df.loc['row_sum'] = df.apply(lambda x: x.sum())

4. 代码实现

# 包导入

import time
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import LabelEncoder

# 输入数据
data_path = '../input/'
train_data = pd.read_csv(data_path + 'train_dataset.csv')
test_data = pd.read_csv(data_path + 'test_dataset.csv')
sample_sub = pd.read_csv(data_path + 'submit_example.csv')

# 预处理
train_data.head(1)
print(train_data.columns)

train_data.columns = ['uid','true_name_flag','age','uni_student_flag','blk_list_flag',\
                     '4g_unhealth_flag','net_age_till_now','top_up_month_diff','top_up_amount',\
                     'recent_6month_avg_use','total_account_fee','curr_month_balance',\
                     'curr_overdue_flag','cost_sensitivity','connect_num','freq_shopping_flag',\
                     'recent_3month_shopping_count','wanda_flag','sam_flag','movie_flag',\
                     'tour_flag','sport_flag','online_shopping_count','express_count',\
                     'finance_app_count','video_app_count','flight_count','train_count',\
                     'tour_app_count','score']
test_data.columns = train_data.columns[:-1]


# 特征提取
# top up amount, 充值金额是整数，和小数，应该对应不同的充值途径？

def produce_offline_feat(train_data):
	train_data['top_up_amount_offline']

最低0.47元/天解锁文章

湖南大学研究生-杜敏

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
DataFound 2019用户画像竞赛分析

DataFound 2019用户画像竞赛分析1. 数据解释列的含义['用户编码', '用户实名制是否通过核实', '用户年龄', '是否大学生客户', '是否黑名单客户', '是否4G不健康客户','用户网龄（月）', '用户最近一次缴费距今时长（月）', '缴费用户最近一次缴费金额（元）', '用户近6个月平均消费值（元）','用户账单当月总费用（元）', '用户当月账户余额（元）',...
复制链接

扫一扫

专栏目录