《数据分析师养成宝典》阅读笔记1

《数据分析师养成宝典》阅读笔记1

1. 数据分析是什么?

数据分析是将数据转化为价值的一个完整过程。可以帮助人们作出判断,以便采取适当行动。
百度解释为:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息形成结论而对数据加以详细研究和概括总结的过程。

1.1 与信息化系统的不同

指标数据分析信息化系统
目的把数据转化为价值规范管理信息流
核心数据分析业务
驱动数据用户
人类文明的阶段第四阶段(数据科学)第三阶段(计算科学)
对业务的理解数据业务化业务数据化

1.2 与统计分析的不同

指标数据分析统计分析
方法统计+机器学习纯统计
报告讲故事报表式
结果价值信息
执行与反馈做完后需要用数据监测是否达到既定目标。
如果达到目标,关键因素是什么?
如果没达到,问题出在哪里?
结束后没有反馈

1.3 与数据挖掘的不同

指标数据分析数据挖掘
字面理解对已有对象的全面描述、刻画、梳理后得出结论对对象的剖析、分解、透视,发现不为人知的价值
比喻分析沙子结构,用图用铲子挖沙子,看沙子里埋的东西
目的性极强,指导决策找关系、做分类、做聚类
数据来源各种渠道数据库
时效性像一把枪,指哪打哪搞武器研究,前期投入高,时间跨度长

1.4 与数据管理的不同

随着计算机技术的发展,数据管理经历了人工管理、文件系统和数据库系统三个发展阶段。

  • 数据管理只依赖于数据本身,与业务场景、思维习惯无关。
  • 数据管理的数据源一般要求数据是结构化的,而数据分析的数据源可以是结构化、半结构化和非结构化的。
  • 数据管理输入数据,输出还是数据。数据分析输入数据,输出用于决策的数据分析报表。

1.5 与商业智能的不同

商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。常被理解为企业内部现有数据转化为指导商业决策的平台或系统。常见的系统有Business Object、Cognos和Hyperon。

BI通常会涵盖大数据产品、数据分析和数据仓库三部分。数据分析仅是其中一部分。

1.6 数据分析的内容

内容可根据业务需求有所侧重。

数据分析
描述性分析
数据可视化
PPT式报告
数据认知
优化业务
业务洞察
精准营销
用户画像
战略规划
行业分析
趋势预测
数据挖掘

2. 数据分析师

数据分析师是随着大数据兴起而崛起的一个新兴岗位,专门从事行业数据搜集、整理、分析,并依据数据制作业务报告、提供决策、管理数据资产、评估和预测的专业人员。

数据分析师的基本要求如下图:
在这里插入图片描述

  1. 懂业务:熟悉行业知识、公司业务及流程。
  2. 懂管理:对自己参与的项目需要承担对进度、成本和质量的控制。
  3. 懂分析:掌握数据分析基本原理和一些有效的数据分析方法,并灵活用到实践工作中。**基本的分析方法:**对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法和矩阵关联分析法等。**高级的分析方法:**相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法和时间序列等。
  4. 懂工具:常用的工具:Excel、SQL Server、SPSS、SAS、R等。

3. 数据分析过程

  1. 业务理解
  2. 指标设计
  3. 数据建模
  4. 分析报告

3.1 数据分析的内容

业务理解:识别信息需求,为数据分析提供清晰地目标。主要目的是理解数据,解决分析什么问题。要对数据敏感,树立正确的思维观,熟悉行业业务流程。
同一组数据,业务目标不同,会产生完全不同的分析方案。所以数据分析的第一步一定是梳理业务目标
业务目标是否清晰的判断标准:Y和X是否清晰
Y:因变量,是一个指标,用于刻画我们最关注的一个结果;
X:解释变量,通常代表多个指标的集合,用于解释Y的结果。

:对于移动公司,Y表示客户是否流失。需要考虑的是如何定义客户流失。一般来说,客户销号 = 流失,但大多数用户可能采取的方式:停止使用,不销号,此时我们可以定义如果一个用户连续3个月不适用服务不缴费,即为流失。用什么原因去解释Y,即为X的内容。X是否与性别、年龄、消费习惯等等因素有关?X的设计需要创意,需要对业务有深刻的理解,以及天马行空的想象力。

3.2 指标设计

指标设计的核心任务是把原始数据转换为专家数据,是数据分析项目落地,包括对问题分解和对数据分解。好的指标设计能够把抽象项目具体化,而且具有直接的管理实践含义。

3.3 数据建模

建模阶段主要是选择和应用各种建模技术 ,同时对模型参数进行校准以达到最优值。
建模过程中,需要采用多种技术手段,挑选合适的变量参与建模。变量太少不能全面覆盖需要考察的各方面属性,可能会遗漏一些重要的属性关系;变量太多会削弱主要业务属性的影响,并给理解分群结果带来困难。
输入变量的选择也十分重要。应结合分析任务目标,选择有重要业务意义并与数据挖掘目标密切相关的变量;选择的变量应具备较好的数据质量,并且选择的变量之间的相关性不宜太强。
不同的技术方案产生的模型结果有很大不同,而且模型结果的可理解性也存在较大差异。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。

3.4 分析报告

数据分析报告是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出解决问题方法的一种分析应用文体。
好的数据分析报告是企业决策的重要依据,专业的数据分析报告能体现你的职场价值。
分析报告包括标题、目录、正文、总结与建议

《数据分析师养成宝典》 机械工业出版社

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值