数据挖掘实践(资金流入流出预测)--Task1数据探索与分析

数据挖掘实践(资金流入流出预测)–Task1数据探索与分析

1. 数据探索和准备步骤

1.1 时间序列图

通过时间变化可以得到事务的变化趋势

1.2 数据分布可视化

可以使用直方图、密度曲线图、箱型图、小提琴图等

1.3 变量间相关性分析与独立性分析

相关性分析
定类变量:名义型变量;性别
定序变量:不仅分类,还按某种特性排序;两值的差无意义;教育程度
定距变量:可比较大小、差有意义的变量

独立性分析/检验
变量间无线性相关性,还可能存在非线性关联
假设X为连续型变量,Y为离散型变量(有R种取值)
𝐻_0:X与Y独立;𝐻_1:X与Y不独立
定义𝐹(𝑋)=𝑃(𝑋≤𝑥),𝐹_𝑟 (𝑋)=𝑃(𝑋≤𝑥|𝑌=𝑦_𝑟)

独立性分析/检验
计算复杂度低,易于实现
分位数表

2. 资金流入流出预测的数据探索

2.1导入工具包,读取数据集
import pandas as  pd
import numpy as np
import warnings 
import datetime
import seaborn as sns
import matplotlib.pyplot as plt
import datetime 
from scipy import stats
import warnings
warnings.filterwarnings('ignore')
# 设置数据集路径
dataset_path = 'Purchase Redemption Data/'
# 读取数据
data_balance = pd.read_csv(dataset_path+'user_balance_table.csv')
# 为数据集添加时间戳
data_balance['date'] = pd.to_datetime(data_balance['report_date'], format= "%Y%m%d")
data_balance['day'] = data_balance['date'].dt.day
data_balance['month'] = data_balance['date'].dt.month
data_balance['year'] = data_balance['date'].dt.year
data_balance['week'] = data_balance['date'].dt.week
data_balance['weekday'] = data_balance['date'].dt.weekday
2.2时间序列分析
# 画出每日总购买与赎回量的时间序列图

fig = plt.figure(figsize=(20,6))
plt.plot(total_balance['date'], total_balance['total_purchase_amt'],label='purchase')
plt.plot(total_balance['date'], total_balance['total_redeem_amt'],label='redeem')

plt.legend(loc='best')
plt.title("The lineplot of total amount of Purchase and Redeem from July.13 to Sep.14")
plt.xlabel("Time")
plt.ylabel("Amount")
plt.show()

在这里插入图片描述

2.3翌日特征分析
# 画出每个翌日的数据分布于整体数据的分布图

a = plt.figure(figsize=(10
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值