总体概述
《数据探索与分析》主要内容是对原始数据及可选特征分析。对翌日特征、月特征、日期特征、节假日特征、节假日周边特征等与购买量和赎回量进行了可视化趋势性分析。
具体过程
数据预处理
- 导入数据
- 添加时间戳
# 为数据集添加时间戳
data_balance['date'] = pd.to_datetime(data_balance['report_date'], format= "%Y%m%d")
data_balance['day'] = data_balance['date'].dt.day
data_balance['month'] = data_balance['date'].dt.month
data_balance['year'] = data_balance['date'].dt.year
data_balance['week'] = data_balance['date'].dt.week
data_balance['weekday'] = data_balance['date'].dt.weekday
特征分析
-
时间序列分析
对原始数据的购买量、赎回量进行可视化分析;
-
翌日特征分析
选取每天的数据,对每周第二天的数据进行统计分析,包括小提琴图、正态分布图、中位数特征、箱体图等;最后采用斯皮尔曼相关性对第二天数据与购买量及赎回量进行相关性分析; -
月特征分析
对一年中每个月的购买量和赎回量进行统计分析;然后将每月的总量转为了概率分布,下图为每月购买量的概率密度曲线。
-
日特征分析
对每个月的购买量和赎回量进行统计分析;从中可以看出某些天存在异常点。如第一天、第二天、第16天等,同时对这些天的异常原因进行了说明;
热力图中可以看到第四周的周六的数据有异常,赎回量非常小。后面对这个数据分析发现是五一后上班的第一天。
-
节假日分析
对节假日次日及附近的日期购买量与赎回量进行了分析; -
异常值分析
对每个月单笔最大、最小交易及总交易额进行分析;
-
用户交易中的其他变量分析
-
银行及支付宝利率的分析
支付宝利率影响购买量;
银行利率印象赎回量;
支付宝利率影响短;
银行利率影响长;
特征总结
- 确定备选特征;需要从原始数据进行多维度进行分析。
- 对备选特征与所预测目标的趋势性进行相关性分析;