数据诊断作为数据分析和建模流程里面的第一环,也是最基本的一环,通过数据诊断可以认识数据整体特征的情况,从而可以对数据更好的分析和建模,做一些特征工程和数据预处理。
数据诊断的目的:
- 了解特征的分布,缺失和异常
- 统计指标可直接用于数据预处理
- 方便更好的对数据分析和建模
数据诊断统计指标介绍:
- 均值(mean)/中位数(median)/最大值/最小值
- 计数类
- 缺失值/方差
- 分位点/值的频数
利用Python制作数据诊断工具
流程如下:
- Python数据处理依赖包安装
- 读取数据
- 计算统计指标
- 统计指标计算结果的功能整合
利用数据诊断结果了解数据整体特征情况,并进行数据预处理和建立学习模型
最后进行
- 训练模型
- 模型评估