一、常用python库
- 数据科学库
- numpy
- pandas
- scipy
- 可视化库
- matplotlib
- seabon
- 其他具体功能库
二、基本数据分析流程
- 载入数据,通过head方法和打印shape来大体上把握数据
- 数据概览
- describe方法查看相关统计量
- info方法总览数据类型
- 数据缺失和异常
- 每种类型数据是否存在NaN
- 注意异常值
- 了解预测值分布
- 总体分布情况
- 查看skewness和kurtosis
- 查看预测值的具体频数
- 数字特征分析
- 特征间相关性
- 特征的skewness和kurtosis
- 特征值分布可视化
- 特征关系可视化
- 多变量相互回归关系可视化
- 类型特征分析
- 特征的unique分布
- 特征可视化(箱型图、小提琴图)
- 特征类别频数可视化(直方图)
- 综合性分析——pandas-profiling数据报告