第二章
2.1 理解数据结构
无法访问
常见格式:
- 表格(tsv,csv,excel)
- XML
- JSON(MongoDB)
2.2 校验
2.2.1 字段校验
弄清字段含义和数据含义:
- 单位(美元、美分):查看字段定义和实际值
- 是否有意义。点击量不能是小数。
- 空值/缺失值在数据中的表示:NULL,N/A,NaN,数字-999等
2.2.2 值校验
正则表达式
- 对于枚举字段,如月份,“month”应只包含月份信息。
- 对于数值字段,所有值都是数值么?
- 对于固定格式的字段,如IP地址,需正则表达式匹配。
2.2.3 简单统计的物理解释
对于数值字段(由自动化方法实现):
- 最大值、最小是是否有意义;
- 根据定义,数值应在某个范围以内,如比率应小于1;
- 财务值合理范围;
- 平均值帮助校验数据
2.3 可视化
- 直方图既适于数值型、也适于非数值型数据
- 一阶直方图
- 二阶直方图(聚合)
- 分箱(1~10、10~20……)
- 小心直方图中的不连续点,可能数据有问题