赛题介绍
【天池】资金流入流出预测(赛题链接)。
赛题背景
蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。本赛题期望参赛者能够通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为。
赛题描述
余额宝用户的申购赎回数据(2013年7月-2014年8月;每天;28041位用户,2840421条记录)等信息预测未来每日的资金流入流出情况。
数据介绍
竞赛中使用的数据主要包含四个部分,分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。下面分别介绍四组数据。
1.用户信息表
用户信息表:user_profile_table。总共随机抽取了约3万用户,其中部分用户在2014年9月份第一次出现,这部分用户只在测试数据中。因此用户信息表是约2.8万个用户的基本数据,在原始数据的基础上处理后,主要包含了用户的性别、城市和星座。具体的字段如下表1:
2.用户申购赎回数据表
用户申购赎回数据表:user_balance_table里面有20130701至20140831申购和赎回信息、以及所有的子类目信息,数据经过脱敏处理。脱敏之后的数据,基本保持了原数据趋势。数据主要包括用户操作时间和操作记录,其中操作记录包括申购和赎回两个部分。金额的单位是分,即0.01元人民币。如果用户今日消费总量为0,即consume_amt=0,则四个字类目为空。
3.收益率表
收益表为余额宝在14个月内的收益率表:mfd_day_share_