《数据分析师养成宝典》阅读笔记1
1. 数据分析是什么?
数据分析是将数据转化为价值的一个完整过程。可以帮助人们作出判断,以便采取适当行动。
百度解释为:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
1.1 与信息化系统的不同
指标 | 数据分析 | 信息化系统 |
---|---|---|
目的 | 把数据转化为价值 | 规范管理信息流 |
核心 | 数据分析 | 业务 |
驱动 | 数据 | 用户 |
人类文明的阶段 | 第四阶段(数据科学) | 第三阶段(计算科学) |
对业务的理解 | 数据业务化 | 业务数据化 |
1.2 与统计分析的不同
指标 | 数据分析 | 统计分析 |
---|---|---|
方法 | 统计+机器学习 | 纯统计 |
报告 | 讲故事 | 报表式 |
结果 | 价值 | 信息 |
执行与反馈 | 做完后需要用数据监测是否达到既定目标。 如果达到目标,关键因素是什么? 如果没达到,问题出在哪里? | 结束后没有反馈 |
1.3 与数据挖掘的不同
指标 | 数据分析 | 数据挖掘 |
---|---|---|
字面理解 | 对已有对象的全面描述、刻画、梳理后得出结论 | 对对象的剖析、分解、透视,发现不为人知的价值 |
比喻 | 分析沙子结构,用图 | 用铲子挖沙子,看沙子里埋的东西 |
目的性 | 极强,指导决策 | 找关系、做分类、做聚类 |
数据来源 | 各种渠道 | 数据库 |
时效性 | 像一把枪,指哪打哪 | 搞武器研究,前期投入高,时间跨度长 |
1.4 与数据管理的不同
随着计算机技术的发展,数据管理经历了人工管理、文件系统和数据库系统三个发展阶段。
- 数据管理只依赖于数据本身,与业务场景、思维习惯无关。
- 数据管理的数据源一般要求数据是结构化的,而数据分析的数据源可以是结构化、半结构化和非结构化的。
- 数据管理输入数据,输出还是数据。数据分析输入数据,输出用于决策的数据分析报表。
1.5 与商业智能的不同
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。常被理解为企业内部现有数据转化为指导商业决策的平台或系统。常见的系统有Business Object、Cognos和Hyperon。
BI通常会涵盖大数据产品、数据分析和数据仓库三部分。数据分析仅是其中一部分。
1.6 数据分析的内容
内容可根据业务需求有所侧重。
2. 数据分析师
数据分析师是随着大数据兴起而崛起的一个新兴岗位,专门从事行业数据搜集、整理、分析,并依据数据制作业务报告、提供决策、管理数据资产、评估和预测的专业人员。
数据分析师的基本要求如下图:
- 懂业务:熟悉行业知识、公司业务及流程。
- 懂管理:对自己参与的项目需要承担对进度、成本和质量的控制。
- 懂分析:掌握数据分析基本原理和一些有效的数据分析方法,并灵活用到实践工作中。**基本的分析方法:**对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法和矩阵关联分析法等。**高级的分析方法:**相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法和时间序列等。
- 懂工具:常用的工具:Excel、SQL Server、SPSS、SAS、R等。
3. 数据分析过程
- 业务理解
- 指标设计
- 数据建模
- 分析报告
3.1 数据分析的内容
业务理解:识别信息需求,为数据分析提供清晰地目标。主要目的是理解数据,解决分析什么问题。要对数据敏感,树立正确的思维观,熟悉行业业务流程。
同一组数据,业务目标不同,会产生完全不同的分析方案。所以数据分析的第一步一定是梳理业务目标!
业务目标是否清晰的判断标准:Y和X是否清晰。
Y:因变量,是一个指标,用于刻画我们最关注的一个结果;
X:解释变量,通常代表多个指标的集合,用于解释Y的结果。
例:对于移动公司,Y表示客户是否流失。需要考虑的是如何定义客户流失。一般来说,客户销号 = 流失,但大多数用户可能采取的方式:停止使用,不销号,此时我们可以定义如果一个用户连续3个月不适用服务不缴费,即为流失。用什么原因去解释Y,即为X的内容。X是否与性别、年龄、消费习惯等等因素有关?X的设计需要创意,需要对业务有深刻的理解,以及天马行空的想象力。
3.2 指标设计
指标设计的核心任务是把原始数据转换为专家数据,是数据分析项目落地,包括对问题分解和对数据分解。好的指标设计能够把抽象项目具体化,而且具有直接的管理实践含义。
3.3 数据建模
建模阶段主要是选择和应用各种建模技术 ,同时对模型参数进行校准以达到最优值。
建模过程中,需要采用多种技术手段,挑选合适的变量参与建模。变量太少不能全面覆盖需要考察的各方面属性,可能会遗漏一些重要的属性关系;变量太多会削弱主要业务属性的影响,并给理解分群结果带来困难。
输入变量的选择也十分重要。应结合分析任务目标,选择有重要业务意义并与数据挖掘目标密切相关的变量;选择的变量应具备较好的数据质量,并且选择的变量之间的相关性不宜太强。
不同的技术方案产生的模型结果有很大不同,而且模型结果的可理解性也存在较大差异。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。
3.4 分析报告
数据分析报告是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出解决问题方法的一种分析应用文体。
好的数据分析报告是企业决策的重要依据,专业的数据分析报告能体现你的职场价值。
分析报告包括标题、目录、正文、总结与建议。
《数据分析师养成宝典》 机械工业出版社