CHAP1:基础:数据、数据、无处不在

 数据分析师的技能

分析技能的五个基本方面:好奇心、理解上下文、拥有技术思维、数据设计和数据策略。

  • 好奇心:渴望更多地了解某事,提出正确的问题

  • 理解上下文:理解信息在“大图”中的位置

  • 拥有技术思维:将大事分解成更小的步骤

  • 数据设计:思考如何组织数据和信息,设计您的数据,它以一种合乎逻辑的方式组织起来,便于数据分析师访问,了解并充分利用现有信息。

  • 数据策略:考虑数据分析中使用的人员、流程和工具,它结合了人员、流程和工具以便解决问题。

Analitical thinking:分析性思维包括识别并定义一个问题,然后通过使用数据来解决它有组织的,循序渐进的方式。分析性思维的五个关键方面:它们是可视化、策略/战略思维、问题导向、数据间的相关性,最后,大局观和注重细节的思维。

数据分析师常问的三个问题:

1.根本原因是什么?

2.流程中的差距在哪里?

为此,很多人会使用所谓的差距分析。差距分析:检查和评估一个过程的当前状态,以确定未来改进的机会的一种方法。企业利用差距分析做各种事情,例如改进产品或变得更有效率。差距分析的一般方法是了解你现在在哪里与你想去的地方相比。然后您可以确定之间存在的差距当前和未来的状态并确定如何桥接它们。

3.我们之前没有考虑到什么?

这是思考什么信息或过程中可能缺少步骤的好方法,这样你就可以确定制作更好的决策和战略向前发展。

数据驱动的决策涉及使用事实来指导经营战略

专有名词:

Analytical skills: 分析能力:与使用事实解决问题有关的素质和特点 
Analytical thinking: 分析性思维:确定和定义一个问题的过程,然后通过有组织的、逐步的方式使用数据来解决这个问题

数据:一组事实的集合

数据分析:收集、转换和组织数据,以得出结论,进行预测,并推动知情决策。

数据分析员:收集、转换和组织数据的人,以便得出结论、进行预测并推动明智的决策

数据分析:数据的科学

数据设计:如何组织信息

数据驱动的决策:使用事实来指导商业战略

数据生态系统:为了生产、管理、存储、组织、分析和共享数据而相互作用的各种要素

数据科学:一个研究领域,使用原始数据来创建新的建模和理解未知事物的方法。

数据战略:对用于数据分析的人员、流程和工具的管理

数据可视化:数据的图形化表示

数据集:一个可以作为一个单元进行操作或分析的数据集合。

Technical mindset: The ability to break things down into smaller steps or pieces and work with them in an orderly and logical way

技术思维:能够将事情分解成较小的步骤或片段,并以有秩序和有逻辑的方式进行操作

Gap analysis: A method for examining and evaluating the current state of a process in order to identify opportunities for improvement in the future

差距分析:检查和评估一个过程的当前状态,以确定未来改进的机会的一种方法

eg:机场希望为旅客提供更快、更简单的行李处理流程。数据分析师检查和评估流程当前的工作方式,以实现更高效流程的目标。

数据生命周期&数据分析流程

数据分析工具:其中包括电子表格spreadsheets,、数据库 databases、查询语言query languages和可视化软件visualization software。

数据的生命周期是计划plan、捕获capture、管理manage、分析analyze、存档archive和销毁destroy。

计划plan:在规划过程中,企业要决定它需要什么样的数据,如何在整个生命周期内对其进行管理,由谁来负责,以及最佳结果。例如,假设一个电力供应商想深入了解如何为人们节省能源。在规划阶段,他们可能会决定获取客户每年使用多少电力的信息,哪些类型的建筑正在被供电,以及建筑内哪些类型的设备正在被供电。电力公司还将决定哪些团队成员将负责收集、存储和分享这些数据。所有这些都发生在规划期间,它有助于为项目的其余部分做准备。

捕获capture:这是从各种不同的来源收集数据并将其带入组织的地方。由于每天都有如此多的数据被创造出来,收集数据的方法真是层出不穷。一个常见的方法是从外部资源中获取数据。例如,如果你在做天气模式的数据分析,你可能会从一个公开的数据集,如国家气候数据中心获得数据。另一种获取数据的方式是从公司自己的文件和文档中获取,这些文件通常存储在数据库中。虽然我们以前提到过数据库,但我们还没有太详细地了解它们是什么。数据库是一个存储在计算机系统中的数据集合。就我们的电力供应商而言,该企业可能会在其拥有的数据库中测量客户的数据使用情况。作为一个简短的说明,当你维护一个客户信息的数据库时,确保数据的完整性、可信度和隐私都是重要的关注点。

管理manage:在这里,我们谈论的是我们如何照顾我们的数据,它是如何和在哪里存储的,用来保持它的安全和保障的工具,以及为确保它被正确维护所采取的行动。这个阶段对数据清洗非常重要.

分析analyze:在这个阶段,数据被用来解决问题,做出伟大的决定,并支持业务目标。例如,我们电力公司的目标之一可能是找到帮助客户节约能源的方法。

存档archive:归档意味着将数据存储在一个仍然可用的地方,但可能不会再被使用。在分析过程中,分析师处理大量的数据。你能想象吗,如果我们不得不对所有可用的数据进行分类,即使它对我们的工作不再有用和相关?把它归档比把它留在身边更有意义。

销毁destroy:当你销毁数据时,它不会有任何伤害。因此,让我们回到我们的电力供应商的例子。他们会有存储在多个硬盘上的数据。为了销毁它,该公司将使用一个安全的数据删除软件。如果有任何纸质文件,它们也会被撕碎。这对于保护公司的私人信息,以及关于其客户的私人数据是很重要的。

数据生命周期

您了解到数据生命周期有六个阶段。这是一个回顾:

  1. 计划:决定需要什么样的数据,如何管理,以及谁来负责。

  2. 捕获:从各种不同的来源收集或引入数据。

  3. 管理:关心和维护数据。这包括确定它的存储方式和位置以及用于存储的工具。

  4. 分析:使用数据解决问题、制定决策和支持业务目标。

  5. 存档:保存相关数据以供长期和未来参考。

  6. 销毁:从存储中删除数据并删除数据的任何共享副本。

警告:注意不要混淆或混淆数据生命周期的六个阶段(计划、捕获、管理、分析、存档和销毁)与数据分析生命周期的六个阶段(询问、准备、处理、分析) 、分享和行动)。它们不应互换使用或提及。

数据分析过程

数据分析过程阶段是询问Ask,准备Prepare,处理Process,分析Analyze、分享Share和行动Act。

询问Ask:在这个阶段,我们做两件事。我们定义要解决的问题,并确保我们完全理解利益相关者的期望。利益相关者在项目中占有一定的地位。他们是为项目投入时间和资源的人,对项目的结果感兴趣。让我们来分析一下。首先,定义一个问题意味着你看一下当前的状态,并确定它与理想状态有什么不同。通常有一个我们需要摆脱的障碍或需要修复的错误。例如,一个体育场馆可能想减少球迷在排队购票时的时间。障碍是想出如何让顾客更快到达他们的座位。询问阶段的另一个重要部分是了解利益相关者的期望。这里的第一步是要确定谁是利益相关者。这可能包括你的经理,执行赞助商,或你的销售伙伴。可以有很多的利益相关者。但他们的共同点是,他们帮助做决定,影响行动和战略,并有他们想要达到的具体目标。他们也关心这个项目,这就是为什么了解他们的期望如此重要。例如,如果你的经理分配给你一个与商业风险有关的数据分析项目,明智的做法是确认他们是否希望包括可能影响公司的所有类型的风险,或者只是与天气有关的风险,如飓风和龙卷风。与你的利益相关者进行沟通是确保你在整个项目中保持参与和跟踪的关键。所以作为一个数据分析师,制定强有力的沟通策略是非常重要的。问询阶段的这一部分有助于你保持对问题本身的关注,而不仅仅是其症状。正如你之前所学到的,五个为什么在这里是非常有帮助的。在接下来的课程中,您将学习如何通过与利益相关者合作,提出有效的问题并定义问题。你还会涉及一些策略,这些策略可以帮助你以一种让人感兴趣的方式分享你的发现。

准备Prepare: 这是数据分析师收集和存储数据的地方,他们将在即将到来的分析过程中使用。你将了解更多关于不同类型的数据,以及如何确定哪种数据对解决一个特定问题最有用。你还会发现为什么你的数据和结果是客观和无偏见的如此重要。换句话说,根据你的分析做出的任何决定都应该基于事实,并且是公平和公正的。

处理Process:接下来是过程步骤。在这里,数据分析师找到并消除任何可能妨碍结果的错误和不准确之处。这通常意味着清理数据,将其转化为更有用的格式,结合两个或更多的数据集以使信息更完整,并去除异常值,即任何可能歪曲信息的数据点。之后,你将学习如何检查你准备的数据,以确保它是完整和正确的。这个阶段是关于正确的细节。因此,你还将修正错别字、不一致的地方,或缺失和不准确的数据。最重要的是,你将获得验证和与利益相关者分享你的数据清理的策略。

分析Analyze:分析你所收集的数据涉及到使用工具来转换和组织这些信息,这样你就可以得出有用的结论,进行预测,并推动知情决策。有很多强大的工具,数据分析师在他们的工作中使用,在本课程中,你将学习其中的两个,电子表格和结构化查询语言,或SQL。下一个课程是基于分享阶段的。在这里你将学习数据分析师如何解释结果并与他人分享,以帮助利益相关者做出有效的数据驱动的决策。

分享Share:在分享阶段,可视化是一个数据分析师最好的朋友。因此,本课程将强调为什么可视化对于让别人理解你的数据所告诉你的东西至关重要。有了正确的视觉效果,事实和数字会变得非常容易看到,复杂的概念也会变得更容易理解。我们将探索不同种类的视觉效果和一些伟大的数据可视化工具。你还将通过制作引人注目的幻灯片和学习如何为回答问题做好充分准备来练习你自己的演讲技巧。然后,我们将从数据分析过程中休息一下,向你展示你可以用编程语言R做的所有真正酷的事情。只要知道R是一个流行的数据处理、计算和可视化的工具。

行动Act:对于我们最后的数据分析阶段,我们有行动。这是一个令人激动的时刻,企业将你这个数据分析师所提供的所有见解付诸实施,以解决最初的商业问题,并将根据你在整个项目中所学到的东西采取行动。

通过该计划了解该过程:

  1. 在“提出问题以做出数据驱动的决策”课程中了解有关该过程的“提问”阶段的更多信息。

  2. 在为探索准备数据课程中了解有关该过程的准备阶段的更多信息。

  3. 在“从脏到干净的过程数据”课程中了解有关该过程的“过程”阶段的更多信息。

  4. 在分析数据以回答问题使用 R 编程进行数据分析课程中了解有关该过程的分析阶段的更多信息。

  5. 在通过R 编程的可视化艺术和数据分析共享数据课程中了解有关该过程的共享阶段的更多信息。

  6. 在Google 数据分析 Capstone:完成案例研究课程中详细了解流程的行动阶段。

虽然数据分析过程将推动你的项目并帮助你实现你的业务目标,但你必须了解你的数据的生命周期,以便使用该过程。为了很好地分析你的数据,你需要对它有一个全面的了解。同样地,你可以收集所有你想要的数据,但只有当你有一个分析数据的计划时,这些数据才对你有用。

计划和提问阶段都涉及到计划和提问,但它们处理的是不同的主题。数据分析过程中的 "提问 "阶段侧重于对商业目标的大视野战略思考。然而,计划阶段的重点是项目的基本要素,例如,你能获得什么数据,你需要什么数据,以及你将从哪里获得这些数据。

5种数据分析周期和数据生命周期

Google 数据分析证书的数据分析生命周期

  1. :业务挑战/目标/问题

  2. 准备:数据生成、收集、存储和数据管理

  3. 流程:数据清洗/数据完整性

  4. 分析:数据探索、可视化和分析

  5. 分享: 沟通和解释结果 

  6. 行动:运用你的洞察力解决问题

EMC 的数据分析生命周期

EMC Corporation 的数据分析生命周期具有六个步骤:

  1. 发现

  2. 预处理数据

  3. 模型规划

  4. 建筑模型

  5. 沟通结果

  6. 操作化

EMC Corporation 现在更名为 Dell EMC。该模型由 David Dietrich 创建,反映了现实世界项目的周期性。这些阶段不是静态的里程碑。每一步都连接并通向下一步,并最终重复。关键问题帮助分析师测试他们是否已经完成了足够的工作以继续前进,并确保团队在每个阶段都花费了足够的时间,并且在数据准备好之前不要开始建模。它与这个程序所基于的数据分析生命周期有些不同,但它有一些共同的核心思想:第一阶段是对发现和提出问题感兴趣;必须先准备好数据,然后才能对其进行分析和使用;然后应该分享调查结果并采取行动。

有关更多信息,请参阅这本电子书《数据科学与大数据分析》

SAS的迭代生命周期

一家名为SAS的公司创建了一个迭代生命周期,该公司是一家领先的数据分析解决方案提供商。它可用于产生可重复、可靠和可预测的结果:

  1. 准备

  2. 探索

  3. 模型

  4. 实施

  5. 行为

  6. 评估

SAS 模型通过将其可视化为无穷大符号来强调其模型的周期性。它们的生命周期有七个步骤,我们在其他模型中已经看到了其中的许多步骤,例如 Ask、Prepare、Model 和 Act。但是这个生命周期也有点不同;它包括在行动阶段之后的一个步骤,旨在帮助分析师评估他们的解决方案并可能再次返回询问阶段。 

有关更多信息,请参阅管理大规模决策的分析生命周期

基于项目的数据分析生命周期

基于项目的数据分析生命周期有五个简单的步骤:

  1. 识别问题

  2. 设计数据需求

  3. 预处理数据

  4. 执行数据分析

  5. 可视化数据

该数据分析项目生命周期由 Vignesh Prajapati 开发。它不包括第六阶段,也就是我们所说的行动阶段。但是,它仍然涵盖了许多与我们已经描述的生命周期相同的步骤。它从识别问题开始,在分析之前准备和处理数据,并以数据可视化结束。

有关详细信息,请参阅了解数据分析项目生命周期

大数据分析生命周期

作者 Thomas Erl、Wajid Khattak 和 Paul Buhler 在他们的著作《大数据基础:概念、驱动因素和技术》中提出了大数据分析生命周期。它们的生命周期建议分为九个步骤:

  1. 商业案例评估

  2. 数据识别

  3. 数据采集​​和过滤

  4. 数据提取

  5. 数据验证和清洗

  6. 数据聚合和表示

  7. 数据分析

  8. 数据可视化

  9. 分析结果的利用

这个生命周期似乎比以前的生命周期模型多了三四个步骤。但实际上,他们只是将我们所说的准备和过程分解为更小的步骤。它强调在分析阶段之前收集、准备和清理数据所需的各项任务。

有关更多信息,请参阅大数据采用和规划注意事项

数据生命周期为如何管理数据提供了一个通用或通用的框架。您可能还记得在数据分析过程的起源中描述了数据分析生命周期的变化。数据生命周期也可以这样做。本文的其余部分提供了政府、金融和教育机构如何以不同方式看待数据生命周期的一瞥。

美国鱼类和野生动物管理局

美国鱼类和野生动物管理局使用以下数据生命周期:

  1. 计划

  2. 获得

  3. 维持

  4. 使用权

  5. 评估

  6. 档案

有关更多信息,请参阅美国鱼类和野生动物的数据管理生命周期页面。

美国地质调查局 (USGS)

USGS 使用以下数据生命周期:

  1. 计划

  2. 获得

  3. 过程

  4. 分析

  5. 保存

  6. 发布/分享

在其生命周期的每个阶段还执行了几个跨领域或总体活动:

  • 描述(元数据和文档)

  • 管理质量

  • 备份和安全

有关详细信息,请参阅USGS 数据生命周期页面。

金融机构

金融机构可能对数据生命周期采取略有不同的方法,如《战略金融》杂志的一篇文章The Data Life Cycle中所述:

  1. 捕获

  2. 合格

  3. 转换

  4. 利用

  5. 报告

  6. 档案

  7. 清除

哈佛商学院 (HBS)

哈佛大学研究提供的一个最终数据生命周期有八个阶段:

  1. 一代

  2. 收藏

  3. 加工

  4. 贮存

  5. 管理

  6. 分析

  7. 可视化

  8. 解释

有关详细信息,请参阅数据生命周期中的 8 个步骤

关键要点

了解数据生命周期的重要性将为您作为数据分析师的成功做好准备。数据生命周期中的各个阶段因公司或行业或部门而异。历史数据对美国鱼类和野生动物管理局和美国地质调查局都很重要,因此他们的数据生命周期侧重于归档和备份数据。哈佛的兴趣在于研究和教学,因此它的数据生命周期包括可视化和解释,尽管这些通常与数据分析生命周期相关联。HBS 数据生命周期也没有要求清除或销毁数据的阶段。相比之下,财务数据生命周期清楚地确定了归档和清除阶段。综上所述,虽然数据生命周期各不相同,但一种数据管理原则是通用的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值