广义的数据分析
广义的数据分析包括狭义的数据分析和数据挖掘。
广义的数据分析:是指依据一定的目标,通过统计分析、聚类、分类等方法发现大量数据中的目标隐含信息的过程。
狭义的数据分析
狭义的数据分析:根据分析目的,采用对比分析、分组分析、交叉分析、回归分析等分析方法,对收集的数据进行处理和分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。
数据挖掘
数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过统计分析、聚类、分类等方法发现大量数据中的目标隐含信息的过程。
数据分析的流程
需求分析
需求分析:是从用户的需求出发,挖掘用户内心的真实意图,并转化为产品需求的过程。
数据分析中的需求分析是数据分析环节的第一步也是非常重要的一步。
主要内容:整体分析方向、分析内容
数据获取
是数据分析的基础
数据获取:指根据需求分析的结果提取、收集数据。
两种方式
- 本地数据
- 历史数据——系统在运行过程中遗存的数据
- 实时数据——最近一个单位时间周期
- 网络数据——存储在互联网中的
数据预处理
指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于分析建模的这一过程的总称。
-
数据合并
-
数据清洗
去掉重复、缺失、异常、不一致的数据 -
数据标准化
去除特征间的量纲差异 -
数据变换
- 离散化
- 哑变量处理
- …
分析与建模
指通过对比分析、分组分析、交叉分析、回归分析等分析方法以及聚类模型、分类模型、回归模型、关联规则、智能推荐等模型和算法,发现数据中的有价值信息,并得出结论的过程。
分析与建模的方法 按照目标不同可以分为
-
描述客户行为模式
描述性数据分析方法 关联规则 序列规则 聚类模型等
-
量化未来一段时间内某个事件发生概率
分类预测模型:目标特征通常都是二元数据 回归预测模型:目标特征通常都是连续型数据
模型评价与优化
模型常用评价指标
模型评价
对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。
模型优化
模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用的过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。
过程基本与分析与建模的过程一致。
部署
指将数据分析结果与结论应用至实际生产系统的过程。
根据需求不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。
在多数项目中,数据分析师提供的是一份数据分析报告或者一套解决方案。