数据整理实践指南

第二章


2.1 理解数据结构

无法访问
常见格式:

  • 表格(tsv,csv,excel)
  • XML
  • JSON(MongoDB)

2.2 校验

2.2.1 字段校验

弄清字段含义和数据含义:

  • 单位(美元、美分):查看字段定义和实际值
  • 是否有意义。点击量不能是小数。
  • 空值/缺失值在数据中的表示:NULL,N/A,NaN,数字-999等
2.2.2 值校验

正则表达式
- 对于枚举字段,如月份,“month”应只包含月份信息。
- 对于数值字段,所有值都是数值么?
- 对于固定格式的字段,如IP地址,需正则表达式匹配。

2.2.3 简单统计的物理解释

对于数值字段(由自动化方法实现):

  • 最大值、最小是是否有意义;
  • 根据定义,数值应在某个范围以内,如比率应小于1;
  • 财务值合理范围;
  • 平均值帮助校验数据

2.3 可视化

  • 直方图既适于数值型、也适于非数值型数据
  • 一阶直方图
  • 二阶直方图(聚合)
  • 分箱(1~10、10~20……)
  • 小心直方图中的不连续点,可能数据有问题
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值