【浅谈数据之道】

一、何为道?

1.“道”是所行道也,意思是人们行走的道路。如侵联删

2.“道”是老子的哲学思想,在《道德经》一书中,老子认为“道”是“ 迎之不见其首,随之不见其后 ”的恍恍惚惚、无处不在的隐形影像,是不可以语言表达的空虚无形的自然物体;是能小中见大,洞悉一切奥妙之门的把手。
在这里插入图片描述

3.“道”象征的是天地规律,是自然和人事发展变化得规律,是宇宙运行和社会前进得准则。
在这里插入图片描述

二、数据之道

(一)数据发展道路

a.数据工程师:负责集群数据运维、开发和搭建数据平台及各种数据应用系统开发等。
在这里插入图片描述
b.数据治理工程师:数据使用的一套管理行为,制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理提升数据质量(使用数据说话),发挥数据资产价值。
在这里插入图片描述
c.数据分析师:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
在这里插入图片描述

d.数据产品经理:是负责管理和设计基于数据的产品和解决方案的专业人才,是连接业务需求、技术实现和数据科学的桥梁,他们通过设计、开发和优化数据产品,为企业创造价值。
在这里插入图片描述

e.数据挖掘工程师:一般是指从大量的数据中通过算法搜索隐藏于其中知识的工程技术专业人员。

f.数据科学家:主要工作内容是利用数据分析和机器学习技术来支持企业的决策。他们通过对数据进行收集、清洗、处理和分析,挖掘出潜在的商业价值,为企业提供有价值的信息和建议。
在这里插入图片描述

(二)数据分析师应遵循的规律-核心价值

【看清业务】:有准确数据、有核心(北极星)指标、搭建指标体系。
指标体系:围绕业务目标全角度的衡量业务发展、内部有关联的指标有机整体。
【评估业务】:有风险还是正常、是好还是坏,核心需要建立合理的评估标准。
评估标准:a.均值+标准差(稳定性业务,比例值指标) b.基期*增长系数(预期增长型业务) c.时间进度与目标达成进度(项目进度) d.排名/率(行业视角、相对评估) e.综合评估(业务意志输入)
【洞察业务】:结合对业务的理解,输出洞察建议帮助业务提升和改善。
不仅能发现问题,而且要提出解决问题的建议或方案。

三、数据常用分析方法

(一)数据分析类型

a.描述型分析描述一组数据的“样貌”。例如描述 一个人的时候我们使用身高、体重、年龄、肤色、发式等,描述一组数据通常使用众数、中位数和分位数、平均数、方差、标准差、离散系数等、偏态、峰态等。
(描述性统计分析是常见分析类型之一,可以帮我我们更清楚的认知一组数据,从而做出更佳判断。)

b.预测型分析“以史为镜,可以知兴替”。基于历史推演未来,涉及到机器学习相关技术领域。如果是全新业务领域下的指标,预测未来趋势和达成值,几乎无法实现。
c.诊断型分析“望闻问切,开方抓药,治病救人”,诊断性分析需要基于当前数据现状发现问题,并且提供相应策略建议。需要具备较强的数据功底和业务洞察,可以视为数据进阶的一种。

涉及数据分析工具
Excel、SQL、Python、Tableau。

(二)常用分析方法

a.对比分析即比较分析法
对数据进行比较以分析数据间的差异,包括静态比较和动态比较。静态比较又称横向对比,在同一时间下对不同指标进行的对比;动态比较也称纵向对比,是在同一总体条件下对不同时期指标数值进行的比较。目的是揭示数据代表的事物的发展变化和规律性。
横向对比:横向对比就是跟自己比。最常见的数据指标就是需要跟目标值比,来回答我们有没有完成目标;跟我们上个月比,来回答我们环比增长了多少。
纵向对比:简单来说就是跟他人比。我们要跟竞争对手比,来回答我们在市场中的份额和地位是怎样的。

b.分组分析法
结合对比法,把总体中不同性质的对象分开,并进行对比以便了解内在的数据关系。

c.结构分析法亦称比重分析
分析总体内各组成部分占总体的比例以及构成的变化,从中掌握事物的特点和变化趋势。

d.相关分析法
相关分析是一种统计方法,用于研究现象之间是否存在某种依存关系。通过相关分析,我们可以探讨具体有依存关系的现象的方向和相关程度。例如,当我们想知道A和B之间的关系时,可以使用相关分析来确定它们之间的相关性。

e.假设检验分析法
假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体做法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u-检验法、t检验法、χ2检验法(卡方检验)、F-检验法,秩和检验等。

四、分析案例

(一)总体面包重量均值估计(假设检验)

问题:已知现在有100个面包,我们怎么知道面包的重量大多数在400g左右呢?

如果面包都在400g左右,出现380g的面包应该是个概率很小的事件(概率小于5%),先假设H0:大多数面包都在380g以上,H1:备择假设就是大多数面包不在380g以上。

通过随机抽样30个面包统计发现,其中大于380g的面包占比仅为3%,则可以拒绝原假设,认定这批面包克重大部分不在380g以上。

案例总结:假设检验核心思想即先推断总体是符合一定水平或者要求的,基于假设进行抽样,进而构造检验统计量,计算抽样结果出现的概率,如果一次随机抽样结果发生概率(P值)小于5%,则认定总体不符合预先假设(因为统计学上认为小概率事件在一次抽样中几乎不会发生),从而选择备择假设。

(二)伯克利分校研究生录取歧视女性(辛普森悖论)

20世纪70年代,有人指责加州大学伯克利分校研究生歧视女生申请人,提供以下的数据作为证据。指出男性申请录取率为44%,女性申请录取率为35%;

为了印证这一数据,分别对申请人数TOP6的院系开展调研,数据如下。调查组惊奇的发现,拆分到院系后有4个院系的女性录取率高于男性。所以调查取证不足,无法认定伯克利研究生歧视女性申请人。

案例思考:
首先我们常规使用了分组分析法,根据院系区分查看申请率,但是整体的结论和分组后的结论正好相反,这种现象称为辛普森悖论。总结来说是由于各种干扰因素引起,这个分组中的干扰因素在于男性更倾向于申请高录取率的院系1和院系2,对应的女性录取率虽高于男性,但是申请人数占整体比例较低,对最终结果影响较小,反而大多数女性申请了录取率较低的院系4和院系6,因此整体结果女性的录取率较低。

(三)被损坏的飞机(幸存者偏差)

在二战期间,为了提升战斗机返航成功率从而能再次投入战斗,英国皇家空军计划在飞机上安装厚钢板,但钢板即为沉重,无法整个覆盖飞机,因此对结束轰炸任务的飞机开展调查,用于收集易中弹部位从而进行加固。结果发现战斗机从战场返回后,弹孔都密布在机翼上从而断定机翼中弹率较高,因此提议加固机翼。你同意这种观点么?

此时军队中有人提到这组数据存在幸存者偏差,返航的飞机中,驾驶舱、发动机和油箱很少有弹孔,恰恰是因为这些部位被击中的飞机无法返航,因此需要加固这些部位。他的结论与最初调查的结论恰恰相反,但是将军采纳了他的建议,在接下来的战斗中,被击落的飞机大大减少,这个人的建议为最终战斗的胜利做出了贡献。
案例思考:在这个案例中,数据只统计到了幸存下来的飞机,样本是有极大偏差的,因此结论也是错误的。因此在实际工作中,我们需要考虑更多的样本覆盖,切不可在只掌握片面数据的时候直接下结论,要思考是否还有“隐形“数据,从而得出真正有价值的结论。

五、总结

希望通过今天的分享,能帮助大家认清数据的各类工种,并且了解以价值为导向的数据分析规律,结合常用分析方法和案例能够辩证的思考数据分析的价值,在今后的工作中灵活的使用。

以上内容如有侵权,请联系删除~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值