Task1 数据探索与分析

Task1 数据探索与分析

1.赛题介绍

1.1赛题背景信息和赛题要求。

使用已有数据,精确预测在2014 年 9 月每天一行的申购总额和赎回总额。

1.2掌握赛题的数据情况和结果评估方法。

赛题数据提供了2013年7月-2014年8月每天的申购赎回数据,28041位用户,共有2840421条记录。计算所有用户在测试集上每天的申购及赎回总额与实际情况总额的误差为评估方法,最后公布总积分 = 申购预测得分 *45%+ 赎回预测得分 *55% 。

2.数据可视化基本知识

2.1基本图表

2.1.1-直方图

直方图

2.1.2-密度曲线图

在这里插入图片描述

2.1.3-箱线图

在这里插入图片描述

2.1.4-小提琴图

在这里插入图片描述

2.2变量相关性分析与独立性分析

2.2.1变量相关性分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。

2.2.2独立性分析

独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验,它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。

3.数据探索与分析

3.1时序图

在这里插入图片描述
此图表现了2013年7月-2014年8月的申购总额和赎回总额,发现申购总额和赎回总额的变化趋势相同,在特殊的时期才会有较大的差距。
在这里插入图片描述
从2014年4月以后发现波动趋势大致相同。
在这里插入图片描述
从4-8月的图中可以看出,每月有四个波峰和四个波谷,并且在月末时赎回高于购买,月初时购买高于赎回,并且具有一定的相关性。

小提琴图和分布图

在这里插入图片描述
发现申购总额和赎回总额在工作日分布的较高,特别是周三。支付宝首次收益显示时间也分布在工作日,特别是周三显示次数最多,有三天存入的钱都在周三显示收益。
在这里插入图片描述

用中位数绘制柱状图

在这里插入图片描述
发现还与余额宝收益计算方式有关。

箱线图

在这里插入图片描述
同上,发现还与余额宝收益计算方式有关。

构造热图分析申购总量与赎回总量间的相关性

在这里插入图片描述
看出线性相关较弱。

申购和赎回总量间独立性

在这里插入图片描述
发现存在依赖关系。

分析每月的分布

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
发现13年7-10月与其他月份差异明显;14年5月6月购买量接近,14年7月和8月有差异;13年9月与8月差异较大,13年9月与10月很接近。

利用直方图分析14年8月

在这里插入图片描述
在这里插入图片描述
发现每周开始倾向购买,每周中期倾向于赎回;周末不倾向交易,猜测与余额宝收益计算方式有关;赎回波动性比购买大。

分析13年9月申购总额与赎回总额

在这里插入图片描述
发现16号-中秋前为购买峰值;28号-国庆前为赎回峰值;11号和25号为赎回峰值(周三)

特殊节日

在这里插入图片描述
特殊节日的交易量明显低于平时。

时序图

在这里插入图片描述
在这里插入图片描述
发现节日前交易量下降,节日后交易量上升。

分析大额交易

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值