资金流入流出预测-挑战Baseline 赛题的一些常用方法总结:
(一)赛题说明
竞赛中使用的数据主要包含四个部分,分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。下面分别介绍四组数据。
1.用户信息表
用户信息表: user_profile_table 。 我们总共随机抽取了约 3 万用户,其中部分用户在 2014 年 9 月份第一次出现,这部分用户只在测试数据中 。因此用户信息表是约 2.8 万 个用户的基本数据,在原始数据的基础上处理后,主要包含了用户的性别、城市和星座。具体的字段如下表 1 :
表1用户信息表
列名 |
类型 |
含义 |
示例 |
user_id |
bigint |
用户 ID |
1234 |
Sex |
bigint |
用户性别( 1 :男, 0 :女 ) |
0 |
City |
bigint |
所在城市 |
6081949 |
constellation |
string |
星座 |
射手座 |
2. 用户申购赎回数据表
用户申购赎回数据表: user_balance_table 。里面有 20130701 至 20140831 申购和赎回信息、以及所有的子类目信息, 数据经过脱敏处理。脱敏之后的数据,基本保持了原数据趋势。数据主要包括用户操作时间和操作记录,其中操作记录包括申购和赎回两个部分。金额的单位是分,即 0.01 元人民币。 如果用户今日消费总量为0,即consume_amt=0,则四个字类目为空。
表格 2 :用户申购赎回数据
列名 |
类型 |
含义 |
示例 |
user_id |
bigint |
用户 id |
1234 |
report_date |
string |
日期 |
20140407 |
tBalance |
bigint |
今日余额 |
109004 |
yBalance |
bigint |
昨日余额 |
97389 |
total_purchase_amt |
bigint |
今日总购买量 = 直接购买 + 收益 |
21876 |
direct_purchase_amt |
bigint |
今日直接购买量 |
21863 |
purchase_bal_amt |
bigint |
今日支付宝余额购买量 |
0 |
purchase_bank_amt |
bigint |
今日银行卡购买量 |
21863 |
total_redeem_amt |
bigint |
今日总赎回量 = 消费 + 转出 |
10261 |
consume_amt |
bigint |
今日消费总量 |
0 |
transfer_amt |
bigint |
今日转出总量 |
10261 |
tftobal_amt |
bigint |
今日转出到支付宝余额总量 |
0 |
tftocard_amt |
bigint |
今日转出到银行卡总量 |
10261 |
share_amt |
bigint |
今日收益 |
13 |
category1 |
bigint |
今日类目 1 消费总额 |
0 |
category2 |
bigint |
今日类目 2 消费总额 |
0 |
category3 |
bigint |
今日类目 3 消费总额 |
0 |
category4 |
bigint |
今日类目 4 消费总额 |
0 |
注 1 :上述的数据都是经过脱敏处理的,收益为重新计算得到的,计算方法按照简化后的计算方式处理,具体计算方式在下节余额宝收益计算方式中描述。
注 2 :脱敏后的数据保证了今日余额 = 昨日余额 + 今日申购 - 今日赎回,不会出现负值。
3.收益率表
收益表为余额宝在 14 个月内的收益率表: mfd_day_share_interest 。具体字段如表格 3 中所示
表格 3 收益率表
列名 |
类型 |
含义 |
示例 |
mfd_date |
string |
日期 |
20140102 |
mfd_daily_yield |
double |
万份收益,即 1 万块钱的收益。 |
1.5787 |
mfd_7daily_yield |
double |
七日年化收益率( % ) |
6.307 |
4.上海银行间同业拆放利率(Shibor)表
银行间拆借利率表是 14 个月期间银行之间的拆借利率(皆为年化利率): mfd_bank_shibor 。具体字段如下表格 4 所示:
表格 4 银行间拆借利率表
列名 |
类型 |
含义 |
示例 |
mfd_date |
String |
日期 |
20140102 |
Interest_O_N |
Double |
隔夜利率(%) |
2.8 |
Interest_1_W |
Double |