了解数据分析

选择一个职业,如何判断它的前景?按照点线面体思维,需要看经济“体”的发展趋势,而在中国,政府经济发展政策就代表了风向。各地政府纷纷发布数字经济发展战略,2022年人社部发布了许多新职业,而这些新职业也反映了数字经济发展的需要,如“数据安全工程技术人员”“数字化解决方案设计师”“数据库运行管理员”“商务数据分析师”等。

数字经济是下一个风口,而诸如元宇宙、VR、AR、新能源汽车等创新领域已然在不断发力。如何处理数据、如何从数据中挖掘价值等问题都将是这些创新业务发展的重点。

互联网将作为底层的基础建筑,各行各业逐步完成数字化转型,开始更多地扎根,且在未来的一段时间内,数据方面的人才需求预计还会保持每年40%的持续增长,甚至预计在未来数据人才缺口达到300万人左右。从各大招聘网站也可以看出来,数据分析相关岗位在薪资方面也是相当可观的,并且现在各个互联网的岗位都需要数据分析技能。

什么是数据分析师?

数据分析师让企业能够通过可视化和报告工具来最大限度地增加其数据资产的价值。 他们还负责分析、清除和转换数据。 此外,还负责设计和构建可缩放的高性能数据模型,在报表中启用和实现高级分析功能,用于分析报表。 数据分析师会与相关利益干系人合作来确定合适且必要的数据和报告要求,然后将原始数据转换为相关且有意义的见解。

想要成为一名数据分析师,于是踏上了漫漫探索之旅。

了解数据分析的关键概念将帮助你和你的团队开始探索并充分利用数据。

 数据分析是标识、清除、转换和建模数据的过程,用于发现有意义和有用的信息。 然后通过报表将数据制作成故事进行分析,支持关键的决策过程。

尽管数据分析过程着重于清理、建模和可视化数据的任务,但数据分析的概念及其对企业的重要性不容小觑。 为了分析数据,分析的核心部分划分为以下几个类别:

  • 说明性
  • 诊断性
  • 预测性
  • 规范性
  • 认知性 

 

数据分析师是组织中的几个关键角色之一,他们帮助发现并解读信息,使公司保持平衡并有效运转。 因此,数据分析师需要清楚地了解自己的职责以及每日执行的任务,这至关重要。 数据分析师能够帮助组织从大量数据中获得有价值见解,并通过与组织中其他人紧密合作来发现有价值的信息,他们在这些方面起着不可或缺的作用。

 

 探索数据分析的过程:

数据分析是收集、转换和呈现数据以通知决策的过程。 通过需求收集练习,开发分析解决方案在涉及任何技术之前开始。 在此过程中,会继续引入、处理和浏览数据。 分析和解决方案部署后,请求来自企业的反馈。 最后,分析解决方案进行了优化,并再次开始该过程。 分析过程永不结束。

需求收集

数据团队与企业合作来了解分析项目的业务需求和预期结果。 需求收集包括标识:

  • 关键业务问题是什么?
  • 哪些数据可用? 可用数据会响应业务需求,还是需要收集更多数据?
  • 什么是基本维度 - 利益干系人如何对数据切片、切块?
  • 关键绩效指标或性能指标有哪些?
  • 用户将如何使用分析?
  • 数据引入的频率是多少?
  • 报告的频率是多少?

这是一种常见误解,数据团队将能够从大量数据中提取见解,而无需讨论上述任何问题。 如果没有遵循结构化的需求收集过程,数据团队将无法确定适当的分析类型和/或正确的解决方案。

根据团队结构、数据量和速度以及所需的分析类型,需求收集可能采用多种形式。

数据引入和处理

使用从企业收集的需求,数据团队将开始引入和转换数据。

可用于引入和转换的 Azure 数据服务包括但不限于 Azure Cosmos DB、Azure SQL 数据库、Azure Synapse Analytics、Azure Databricks、Azure Data Lake、Azure 事件中心和 Azure 流分析。

数据工程师通常负责初始引入和转换数据。 然后,数据将呈现给数据团队的其他成员以进行探索和分析。 企业数据分析人员和数据科学家通常使用的 Azure 数据服务可能会限制为特定数据库或 Data Lake。

术语“提取、转换和加载 (ETL)”或“提取、加载和转换 (ELT)”指的是引入和处理数据的过程。

 详细了解 ETL 过程

数据研究

数据浏览致力于了解你正在使用的功能,以及这些数据如何响应业务需求。 可以在许多不同的工具中进行数据浏览。 在基本级别中,数据团队可以使用 Excel 查看 .csv 的内容,以便查看记录数和/或他们需要浏览的特定变量。 数据团队的每个成员都可以通过不同的工具进行数据分析。 分析人员可以使用 Power BI 中的 Power Query 分析数据,而数据科学家可以使用 Azure Synapse 中的 Apache Spark。

数据浏览有助于了解所需的数据转换和清理步骤,这些步骤可向数据工程人员发回上游以构建到分析解决方案中。

分析人员还可以在数据浏览阶段开始仪表板或报表原型制作。 了解企业希望如何查看和使用分析结果将了解原型,以及在数据浏览过程中发现的趋势或见解。

数据分析

浏览数据后,可以开始进行数据分析。 分析可以是描述性、预测性、规范性甚至是认知,可以通过许多不同的工具进行分析。 结果应响应已确定的业务需求,并在初始审核时,可能会导致更多问题和分析。

一次性分析和分析解决方案之间存在差异。 两者都各有自己的用途,并且将在需求收集过程中确定需要哪一项。

部署分析解决方案

结果将通过报表或数据可视化工具(如 Microsoft Power BI)呈现给利益干系人,用户可在其中与分析结果交互并使用分析结果进行决策。

部署分析解决方案时的重要注意事项将帮助确定适当的工具、许可和权限,使数据呈现给需要它的任何人。 访问及时见解最终将导致做出数据明智的决策。

请求和处理反馈

部署分析解决方案可能看起来像是完成目标,但请务必了解几个关键问题的答案。

  • 数据产品是否正在使用?
  • 分析确实会响应业务需求吗?
  • 解决方案是否出现任何无法预料的技术问题?
  • 数据产品是否可访问?
  • 此分析会引发哪些新的业务问题?

使用分析解决方案的个人是你的客户,如果你构建的产品无法充分响应其需求,则需要完成一些工作。

有多个请求反馈的媒介。 首次启动解决方案可能需要定期评审会议,而监视正在进行的项目的使用指标将帮助你了解一段时间的使用情况,甚至对你的解决方案有用和没有用的方面。

优化解决方案

实现用户的反馈是合理优化分析解决方案的第一步。 在此过程中,可能还有机会删除延迟,例如,确保在分配的时间内进行数据刷新。 优化还可以通过调整视觉设计或确保报表视觉对象快速呈现,来更准确地反映用户需求。

再次开始

分析过程在本质上是循环的。 公开数据和见解通常会导致请求进行更多分析,这会导致更多的反馈等。 在大型数据团队中,分析过程可能在短期冲刺中发生,在这种情况下,不同的团队成员可以同时工作来实现小目标,然后再进入该过程的下一步。 在较小的团队中,一个人可能充当多个角色,这会使过程看起来不同。

不管此过程对你来说如何,通信是整个过程中的重要部分。 数据团队必须彼此通信并与企业对话,以确保解决方案开发能够响应业务需求以及数据中可能出现的需求。

结构化数据

我们大多数人都熟悉结构化数据。 字母和数字组织成列和行,以简化搜索和处理。 结构化数据实际上通常是定量的,并存储在关系数据库和数据仓库中。 结构化数据可能驻留在熟悉的 Microsoft Excel 表中。 较大规模的结构化数据存储可以存储在关系数据库中,例如 Azure SQL 数据库。

结构化数据非常适合所有类型的分析,并且最易于访问。 结构化查询语言 (SQL) 用于查询关系数据库,通常由数据分析师、数据工程师和数据科学家等使用。

非结构化数据

非结构化数据是未以任何可辨别方式组织的信息。 非结构化数据通常更适用于定性分析,并存储在非关系数据库和数据湖中。

非结构化数据的格式多种多样,从 Word 文档、.csv 文件、json 文件、图像和 PDF 文件到音频和视频文件。 这些文件将存储在 Azure Data Lake 中。

 本文主要引用:Microsoft Learn:培养开拓职业生涯新机遇的技能

  • 23
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值