目录
一、数据预处理概述
- 瑕疵数据的存在与产生原因
- 其他需要预处理的情况
- 实际案例:某大型保险公司的数据挖掘应用
二、数据抽取
- 数据可能散布在不同的业务系统和不同的渠道,所以需要先汇集起来。
- 金蝶ETL 解决方案案例
- 数据抽取、转换、装载的过程
- ETL的前提
- ETL的原则:主动拉取,而不是推送
- 数据质量:
- 正确性
- 完整性
- 一致性
- 完备性
- 等等很多
- 数据质量原因
- ETL过程
- 数据抽取
- ETL执行的异常处理
- 构建数据仓库
- 数据仓库(DW)
- 数据库(DB)
- 多种数据形态
- 关系型数据库(特点和不足)
- 键值对模型
- 文档模型
- 列族模型
- 图模型
三、预处理方法
- 数据清理
- 遗漏值
- 忽略元组
- 人工填写
- 其他各
- 遗漏值