day1 数据分析与探索
原则上,实行先整体后局部,先正常后异常的处理方法
先整体后局部
1.先对整体的时间序列进行可视化,进行观察,逐步缩小观察范围,切割观察时段
2.在某些特殊时段进行分析,观察申购和赎买总量的差异以及影响因素
3.在对影响因素有所估量后,进一步观察其他时段是否也具有此特征,从而得到初步结论
先正常后异常
1.在发现异常值后,先不予处理,观察正常值的分布
2.最后在观察异常值的出现的影响因素,对从正常值的分布中得到的结论进行补充
新的可视化方法
小提琴图
小提琴图允许可视化一个或多个组的数字变量的分布。它与箱形图非常接近,但可以更深入地了解密度。小提琴图特别适用于数据量巨大且无法显示个别观察结果的情况。在seaborn中使用violinplot函数绘制小提琴图,
seaborn.violinplot(x=None, y=None, hue=None, data=None,
order=None, hue_order=None, bw='scott',
cut=2, scale='area', scale_hue=True, gridsize=100,
width=0.8,inner='box', split=False, dodge=True,
orient=None, linewidth=None,color=None, palette=None,
saturation=0.75, ax=None, **kwargs)
其中:
- 线宽自定义 Change line width
- 图像一般宽度自定义 Change width
- 使用调色板 Use a color palette
- 单种颜色 Uniform color
- 指定每个组的颜色 Specify color of each group
- 突出显示一个组 Highlight a group