一、数据分析挖掘过程
- 数据获取
- 数据处理
- 数据建模
- 数据评价
- 数据可视化
1、数据获取
数据的可能来源如下:
- 关系型数据库
- 格式化数据文件
- 网页数据
- 图片、视频等非格式化数据
2、数据处理
获取的数据需要进行数据质量分析和数据特征分析。为了提高数据质量,需要对数据进行处理:
- 数据清理:缺失值处理、异常值处理
- 数据集成:实体识别、冗余属性识别
- 数据变换:简单函数变换、规范化、连续属性离散化等
- 数据规约:属性规约、数值规约
3、数据建模
数据建模方法包括:
- 分类预测
- 聚类分析
- 关联规则
- 离群点检测
4、模型评价
模型建立后,需要对模型进行评价,以确定模型好坏。常用的测试数据集选择方法包括保持法和K-折交叉验证。关于模型好坏的度量,回归问题常采用均方误差;分类问题常采用精准和错误率、准确率和召回率。
5、数据可视化
借助图形化手段,清晰有效的传达与沟通信息,为信息的展示提供多样化手段。
二、ETL过程
ETL用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。
1、数据特征
ETL产生的数据(整合数据层)具有以下特征:
- 详细的,不是概括的。
- 历史的,数据是周期性的。
- 规范化的,如第三范式或以上。
- 可理解的,同企业数据模型一致。
- 即时的,数据必须是足够当前的。
- 质量可控的。
2、过程描述
3、ETL
(1)、数据抽取
数据抽取指从源文件和源数据库中获取相关数据用于填充数据仓库。设计数据抽取前要搞清楚数据来源于哪些业务系统、是否存在非结构化数据等。数据抽取的一个关键是源系统中的数据质量。
(2)、数据清洗
数据仓库一般分为ODS和DW,从业务系统到ODS做数据清洗,将脏数据和不完整数据过滤掉;从ODS到DW做数据转换,根据业务规则进行计算和聚合。
操作型业务系统的数据质量很差,数据清洗主要是处理不符合要求的数据:
- 缺失的数据:如商品属性缺失、用户区域信息缺失等。
- 错误的数据:如错误的日期、数据中存在不可见字符等。
- 重复的数据:如同样的属性信息多次存储等。
(3)、数据转换
数据转换主要是将不同数据源的数据通过转换使之符合数据仓库的格式,然后将数据集成后存入数据仓库。