数据分析的过程描述
数据分析过程可以用以下几步来描述: 转换和处理原始数据,以可视化方式呈现数据,建模做预测。
因此数据分析几乎可以概括为由以下几个阶段组成的过程链:
① 问题定义
② 数据转换
③ 数据探索
④ 预测模型
⑤ 模型评估
⑥ 可视化
⑦ 部署
问题定义
- 数据分析总是始于要解决的问题,而这个问题需要事先定义。
- 问题定义这一步及产生的相关文档(可交付成果),尤其是问题的规划,将唯一决定整个数据分析项目所遵循的指导方针。
- 定义好问题并形成文档后,接下来就可以进入数据分析的项目规划环节 。该环节要弄清楚高效完成数据分析项目需要哪些专业人士和资源。
数据抽取
数据的选取一定要本着创建预测模型的目的,数据选取对数据分析的成功起着至关重要的作用。
数据准备
数据往往来自不同的数据源 ,有着不同的表现形式和格式。因此,在分析数 据之前, 所有这些不同的数据都要处理成可用的形式。
数据准备阶段关注的是数据获取、清洗和规范化处狸,以及把数据转换为优 化过的,也就是准备好的形式 , 通常为表格形式,以便使用 在规划阶段就定好 的分析方法处理这些数据
数据中存在的很多问题都必须解决掉.比如存在无效的、模棱两可的数据,值缺失,字段重复以及有些数据超出范围等。
数据探索和可视化
探索数据本质上是指从图形或统计数字中搜寻数据,以发现数据中的模式、联 系和关系。数据可视化是突出显示可能的模式的最佳工具。
预测模型
创建或选择合适的统计模型来预测某一个结果的概率。
模型用途分为两类:
- 1、预测系统所产生的数据的值,使用回归模型
- 2、为新数据分类,使用分类或聚类模型
模型评估
验证用先前采集的数据所创建的模型是否有效 。
用于建模的数据称为训练集,用来验证模型的数据称为验证集。 通过比较模型和实际系统的输出结果, 就能评估错误率。
部署
部署,旨在展示结果,也就是给出数据分析的结论。
部署过程基本上就是把数据分析得到的结果应用到实践中去, 数据分析师撰写报告,用分析结果指导实践。