数据思维解读-CSDN博客

本文链接：https://blog.csdn.net/tiger119/article/details/122352324

数据思维是啥？

它是成功人士的标签？还是一种惯用的夸人的伎俩？
PS：我始终认为我们投资方的大老板是一个有数据思维的人

大家都经常谈到这个词，但很难把它说明白，是不？

各位看观可能会问：那是不是这玩意儿很难整明白？
放心，我保准你能看懂，因为，我就没打算把它讲明白，我只是来讲故事的。

好吧，再威胁你一下：

在这个数字时代，你是想当算法，还是被人当作数据？

实验表明：人类大部分活动是受欲望，感情和本能驱使的，大脑不喜欢也不愿意使用数据。所以，善于使用数据的人都容易获得成功。

大家喜欢刷抖音，快手，喜欢美图秀秀，爱看网络小说，但从来不爱看那一串串的数字，人天生是抵抗数字的，看着头疼，更别提说要用它做分析，做决策。
所以说：
懂得操控数据的人能够成功，并不完全是因为它有多神秘，而是因为它的难以掌握。

有人会说，如果我的数学好，对数字很敏感（心算好），算是具有数据思维吗？
NO，这叫做有数字感。

那数据思维能干啥，我们开始看故事！

故事01:
某某单身狗（美国程序员），利用爬虫，在相亲网站收集了 2万多名女性的相亲过程中的 600万个问题答案，利用这些数据与自已的要求匹配，选出合适自已的女性，不断给自已安排相亲约会，成功速配。

这是数据思维吗？是的，这位程序员got it。但好象有点高端，需要写程序。作为程序员的你，曾经有过类似的想法吗？（我记得多年前，我想爬微博数据做舆情，但一直都只是想，没有动手）

注意，我这里在强调了数据处理工具和技能吗？它是数据思维吗？
使用数学工具处理数据，是一项技能。利用计算方法来处理数据，是一项知识。
这些都不是我们说的数据思维。

好，那我们再看一个不是程序员，不那么高端的例子：

故意02:

一位中国的小女生，她是一家知名互联网公司中国办事处的HR助理，负责招聘，她的KPI是提供足够数量的合格应聘者，她在很长一段时间很难达标，因为她没有评价应聘者的标准，对专业技能并不熟悉。她向主管抱怨，主管问她有什么办法。她想了想，说：我们公司一年有差不多一万人应聘，每个成功应聘者需要有7个面试流程。那就是起码有7万次面试过程数据，加上前几年的，能否调出这些数据，给到程序员，做一下处理，找出最终成功应聘，绩效良好的面试者的标准？结果，这个要求提给程序员，聪明的程序员GG真的做到了。从此，小女生过上了幸福生活。

好了，我们是不是会更清楚了一点？可以下结论了：

数据思维并不是指的数据知识和数据技能，它是用数据提出问题和找到解决问题的办法的一种能力。

等等，在我们深入去讨论如何获得数据思维能力前，我们要找到数据思维的充分条件，事情并不是想的那么简单。

仅仅有数据敏感度就够了吗？我们再来看一个故事：

故事03:

又是美国，《太阳哨兵报》某某女记者，注意到一条新闻——当地一名退休警察超速行驶，造成恶性交通事故。凭借其多年的新闻敏感度，她查阅了近10年的记录，发现类似事情不少，于是，她意识到，警察开快车是否是一个值得关注的社会问题？为了取证，她想了很多办法，想证警察/开快车/事故之间的关系，但都不可行。最后，她终于找到了解决办法——从政府调取车辆通过收费站的数据（通过时间），速度 = 距离 / 时间，Too easy。她完全不懂编程，对于拿到的110万条数据，她只能请程序员来完成计算和统计，花了三个月，最终找到两者间的关系，证明了自已的想法，她不但逞了恶，也凭此获得2013年度的普利策新闻奖。

大家有没有注意到，这名女记者首先是要有新闻敏感度，和新闻从业者的坚持，否则，一切不会发生。其次她要有超强的行动力，最后，还需要知道这事儿需要去找伟大的程序员GG（哈，如果女记者缺乏起码的数据常识，不知道速度的公式，知道码农是干啥的。），这几个能力缺一不可。

所以，我们要全面的看待数据思维这种能力，我们补充一下定义：

数据思维发生作用，需要有较强的相关行业的业务能力，需要对数据知识和技能有基本认知！

好，解释清楚了什么是数据思维，我们开始进入正题。

这种数据思维的能力是天生的吗？能通过训练来养成吗？我们来试试看能否拆解这个问题。
下面，我会从如何对数据有感觉，如何正确的去理解，收集，运用数据几方面着手。

首先，我们需要对数据有足够的敏感度！

先强迫自已进入数据的世界，从感性变成理性，学会定量思考问题：

故事04:

不要说我的目标是减肥，而是要说我要在几个月减肥几公斤。
对面来了一个漂亮的小姐姐，不要说小姐姐好漂亮，要说小姐姐颜值好高，可以打 90 分。
给小朋友煎蛋，不要问：你要生一点还是熟一点，要问：你的煎蛋要几成熟。
给开发人员下达性能优化任务，不要说：优化一下某某的并发能力，要说并发能力要达到至少10万/秒的吞吐量。
……

一切皆可量化吗？我们不要抬杠，我们先相信它。

在工作和生活中，在回答别人的问题时，请用定量的方式回答。它会让你们的沟通更高效。

学会定量回答问题就可以了吗？如果有人问你：你们公司的员工的收入水平怎么样？你回答：年平均工资50万。这种回答有意义吗？（很有可能，你们公司CEO的收入是 2000万）。实际上，你提供公司的中位数的收入可能更靠谱。如果用中位数，可能会是 25万。什么是中位数？对不起，我认为数据思维也包括对一些最起码的数学知识和技能的认知。

从感性变成理性后，在定量回答前，要想一想，你选取的数据指标是否适合回答这个问题。

一个人老了，含义很清楚，60岁以上（或者70岁）就是老了。如果说一个社会老了，应该如何定义呢？一个社会，生生不息，怎么确定标准呢？
显然，这个问题过于简单。我们把老年人口在整体人口中的比例拿出来，就可以测量一个社会的老化程度了。

你会说，这有什么难，那我们就换个更难一点的。

你规划了一个项目或者一个产品的改进，想得到老板的支持，你写了一份规划报告，里面详细的介绍了新产品的先进性，开发计划，后续的运营细节，对吗？不对，需要量化的数据是吗？那补上开发需要的人/天，运营后可能带来的用户量，可以了吗？仍然不对，记住，老板首先关注的是投入产出比，所以，你应该着重给出 ROI，只有在这个数据达成老板预期的前提下。其它内容才有必要去审核。当然，这个回报率可能并不简单是一个金额，但它最好能换算成金额。

故事 05:

在计算城市的GDP时，需要计算人均GDP，而人口我们只能使用常住人口。但实际上城市的人口分为常住人口和非常住人口，如果使用常住人口来计算，实际上是不准确的。所以，有分析师提出另外一种算法：用城市生活垃圾的“吨均GDP” 来替换“人均GDP”，所谓吨均GDP就是每吨生活垃圾所对应的GDP。拿上海和深圳的对比为例，如果按人均GDP，深圳比上海高了 45%；而按吨均GDP，深圳只比上海高出 10%，显然，吨均GDP更能体现现实际的对比情况。

定量思考问题，选取合适的指标（定量公式），够了么？

衡量社会是不是老了，算出老年人口占比还不够，还需要给它对应一个标杆值，比如：20%，如果比例大于 20%，我们就认为进入了老年化的社会。
微笑可以定量吗？当然可以，计算机用图像识别，计算露牙的比例，只是，您需要定义露出的比例建出多少，才算做微笑。

当我们不得不用形容词来表达一个观点和意见时，需要看看形容词背后是否可以定量+标杆值来支撑。

那怎么样算是对数据有敏感度呢？综上所述：

第一：要学会尽量通过定量的思维去思考，谈论和使用一个东西。
第二：量化背后，需要搞清楚背后具体的定义。
第三：在定义清楚的基础上，往往会有一个对比值/标杆值来为事物确定一个明确的量的标准。

好了，我们差不多明白了数据敏感度是什么，那我们如何锻炼自已的数据敏感度呢？

我发现一个好方法，实际上最近几年有一个比较流行的目标管理工具：OKR，它是最锻炼人的量化能力的最好的工具。
它不但可以用在工作，完全可以用在生活中，比如：减肥计划，学习计划。
一方面定义合理的O，需要你有清晰的目标，而KR就要靠您的量化思维能力了。
在制定KR的过程中，你会发现，量化思维并不一定是要精确的计算，而是要用量化方式，来逼近你的答案。

有了数据敏感度，那是不是就拿着数据一通瞎猜？

我们一定要注意，数据需要有上下文，要有背景，否则分析没有意义，很少有数据是孤立存在的。

故事06:

摘抄网上有关于国足的段子：
自2002年韩日世界杯后，中国队在世界杯正赛上不败记录已经延续14年
中国队从未在世界杯点球大战中失利过
还没有一支亚洲队能在世界杯上战胜中国队
中国队在世界上的丢球数远少于足球强国巴西和以防守见长的意大利

故事07:

前些年，某某人定义的一个亿的人生小目标。

看到没，如果脱离上下文，我们看到的数据是会怎样？

除了了解清楚数据上下文以外，还要学会去挖掘数据背后的信息。数据的信息往往隐藏得很深，我们如何去发现那些数据背后的信息呢？

故事 08:

三个人斗地主，如果你手里有4个5，没有4，现在上家出了2个4，那么牌面上的2个4隐藏了什么意呢？答案是：下家还有两个4.

在理解数据时，要清楚的知道，面对同一个数据，因为各人的生理属性，文化属性，价值观不同，会导致大家得到不同的结论。

故事09:

街头调查，调查员拿出5支铅笔，4支一种颜色，1支另一种颜色。总之，这两颜色的数量差异悬殊。那么，中国人会挑哪种？美国人呢？选择会不同吗？

真的会，77%的美国人会选择数量少的那一种，但只有31%的中国人会选择数量少的那一种。

故事10:

网传王健林的行程表的时间颗粒度是15分钟，而比尔盖茨的是5分钟。也就是说，如果一个人迟到30分钟，在不同人的眼里，完全是不同的概念。为什么不同的人时间观念会不同，大概率就是每个人对时间的计划颗粒度不同而造成的。

一千个人眼里会有一千个哈姆雷特。

故事11:

丁仪教授俘获了水滴，用放大镜放大千万倍观察，仍然看到的是镜面。

随后，三体的水滴轻易撞毁了人类的几千艘战舰。

有时侯精度就代表文明程度，也代表了一种成本。我们在看待数据时，不能太追求精准，因为那意味着高昂的成本，另外，在可以得出结论的情况下，要敢于估算，敢于不精准。

不用太精确，但不能太离谱！

故事 12:

高盛公司招人的一道面试题，问题是：纽约上空在任何一个时间点，有多少架飞机？

这道题重点不在数学，只在一种解题的思路。
首先：纽约有3个机场（这个对于当地人是很清楚的），大约3分钟起飞和降落一架飞机（这个算是常识吗？我觉得可能不一定每个人都知道），那就是每分钟起降2架飞机。
纽约的直径约 30 公里（这个可以估算一下），假如飞机的时速算 300 公里/小时，那么飞机有6分钟是在纽约的。也就是说 6分钟内有 6 * 2 = 12 架飞机，也就是纽约在任一时间点，会有12架飞机在上空。

数据的实质是什么，它是现实世界实体的映射。

讲了对数据的理解，那我们怎么获得数据呢？

获取数据，首先要知道如何保存数据。
数据通过变量来装，变量指一个事物的单一维度，多个维度的信息集合就是表格。
数据可以分为以下四类：
类别数据——非此即彼如：性别，民族，……
次序数据——含大小顺序的类别数据如：非常重要，重要，无所谓，不重要……
间隔数据——数据间的间隔，距离相同 0 无意义如：智商
比例数据——任意缩放的数据，0有意义如：收入

仔细研究这四种数据，会发现它们是向下兼容的：当然，反过来并不兼容。
如收入比例数据兼容于次序数据（富人，中产，工薪，穷人）

收集数据时，为了保证数据的信息量，尽量收集比例数据。

有了数据，我们首先要考虑的是如何测量？

每个人都听过盲人摸象的故事，几个盲人因为站在大象旁的位置不同，得出对大象外形不同的结论，但现实生活中的我们比盲人摸象还不如，因为很多东西是无法定量的。

测量的目标是什么？
是为了得到一组指标，测量就是一个得到指标体系的过程。

测量一般是使用维度，对认识对象的各个属性进行拆分。
比如：测试一个人的职场优势。使用动机能量，思维决策，情感成熟度，人际互动，任务执行。

很多事物，人的认识不一致，角度不一致，目的不一致，维度的选取也就不一致。
所以，如何分解维度反映了你如何理解事物。确定了维度，也就确定了要测量的指标。
选择指标的原则：
边际效应最大化原则——如果增加指标没有更好的说明认识对象，那就不加。

收集数据，最重要的方法是：抽样

抽样是重要的获取数据的方法，抽样时，必须要保证获得的是概率样本，也就是样本需要有总体代表性。

故事 13:

说到抽样，必讲美国大选，必讲盖洛普抽样。
美国《文学文摘》发出1000万张问卷，回收240万份，预测美国大选，结果呢？预测错了。
原因是什么？因为杂志社的用户大多为有车家庭，根本无法代表全国选民。真不知道这是一个故事还是真有这么傻的杂志社。
《文学文摘》倒下去，盖洛普调查公司站了起来，它使用了配额样本，就是根据总体情况分配样本数据。开始三次大选，完全准确。但失败在第四次，也就是蒋介石压宝错误那一次（杜鲁门战胜了杜威）。

为什么？据说是因为二战结束了，大量农村人口涌入城市，改变了人口结构，1940年的配额方案已经代表不了1948年的选民情况了。于是，盖洛普和《文学文摘》一样，倒在了代表性这个坑。

样本的数量要根据需求来确定，主要看得出结果的需要。

样本抽样的方法，正如中国的古语：以小见大

在读心术出现以前，问卷是收集数据中最常见，最重要的一个工具。

医生给患者用的各种量表（比如：抑郁症自评量表），就是典型的问卷。

好的问卷，并不是直指问题，而是通过各种角度逼近你的主观感受，感觉有点象大数据抽取个人行为一样，让人不会主动去造假（也难以造假）。

故事 14:

看看抑郁症量表中的题目：
下面的说法符合你一周以来的感觉吗？
7.我感到体重减轻。（1）很少（2）有时（3）经常（4）持续
20.我仍旧喜爱自已平时喜爱的东西。（1）很少（2）有时（3）经常（4）持续

我们认为这种问卷的含金量较高，事实也是如此。一份抑郁症的量表可能持续用几十年。而一份考试问卷，基本上很少重复。

故事 15:

高考出题，让大家谈谈对夏天吃冰淇淋的看法？这样的题合适吗？

不合适。因为一些边远地区的同学，可能一辈子都没有见过冰淇淋。

经常有碰到我很无语的情况，我老婆去饭店，会问人家店员你们的这个菜好不好吃，那个菜好不好吃。显然，这并不是能逼近答案的问法。实际可能应该问：我们2个人应该点哪些菜比较合适？你们哪道菜点的人最多？

实验是为了确定因果关系为目标的收集数据的方式。

实验最重要的是需要对照组，需要双盲实验，这些大家都非常清楚，这里不再多讲。

最后，目前最常用的数据收集方式是：大数据

通过大数据来获取数据的优势是：数据海量，数据持续，不反应性（受监控人无感知），

善于把大数据和小数据结合，才是我们利用数据的最高境界。

故事 16:

学校可以通过饭卡的刷卡记录，判断哪些是贫困生，有针对性的扶贫。也可针对刷卡的先后次序，判断学生的社交网，以判断学生是否有抑郁倾向。

数据收集完了，我们接着来理解数据。

故事 17:

一叶落而知天下秋——叶落代表了秋天的开始。

姥爷打麻将，一旦用大姆指反复蹭桌子，你就知道他听牌了。

现实生活中，大量的事务都是不可见的，特征隐藏在数据中，我们只能从数据中获是信息，理解数据。

如何使用数据，使用数据给事物定性，表征一个事物，

其实也就是我们目前碰到的问题，如何选取合适的指标来衡量和评价一件事情，比如：你想为员工评定绩效，那应该选择哪些指标？

使用数据之前，必须完成两件事：第一，识别真正的挑战是什么，明确我们到底想定性什么；第二，不断反思自已对这件的认识。

什么叫不断反思？其实就是在面对复杂问题时，我们需要随着信息的增加而不断调整表征方向。

用数据表征和解决问题：比如电视收视率。但电视收视率并不能代表节目质量。收视率反映的是观众的注意力规模。

如果没有现成的变量能表征我们想要的概念，怎么办呢？
利用现有数据构造新指标来表征你的想法是有风险的事情，但是坚持尝试是很有必要的。

数据最常见的处理方式，是分类，如何分类？

举例：短跑运动员分组，一组是优秀运动员，一组是普通运动员。按成绩或者排名。
按量分类一定对吗？需要保证一个原则，按照量的标准做区分，保证组内差异小，组间差异大。
而且分类的结果是有概率性的，并不保证 100%。

故事 18:

数据显示，一个地区聚集了一群对生育权非常关注的单身女性。于是，大数据专家指令宣传团队向这个地区密集发放竟选传单，说市长当选后，将确保避孕套由政府支付。结果，这些单身女生纷纷打上门来，要求解释。原来，这些单身女性是修女，那里是一个修道院。

现实生活中，面对复杂，我们如何化繁为简呢？必然是通过分解。

故事 19:

前美国总统克林顿与妻子希拉里开车外出，途中去加油站，发现加油工人曾经追求过希拉里。于是，克林顿得意的对希拉里说：“幸亏你嫁给了我，要不然你现在就是加油站工人的老婆。”希拉里马上回应说：“错，要是我嫁给他，他就是现在的美国总统了”。

对于结婚男性比单身男性工资高的两种解释：一种是选择效应（女生愿意选择工资更高的结婚），一种是相夫效应（男性结婚后，得到妻子提供更多的帮助，会变得更优秀，工资增高）。

如何分解因子，想到一个办法，寻找身高1.5米的女性来做对比（因为我们认为1.5米的女性不具备选择更优男生的条件，只具备相夫效应），发现结婚男性工资更高，所以，相夫效应成立。希拉里说得对。

我们来找数据的因果关系

故事 20:

一位女司机打电话给4S痁，说：“我在超市，车发动不了，你们来帮忙解决一下。”店里的工程师问：“你做什么了？”女士说：“我去买玫瑰花了。但是我买百合花，就没有这个问题”。工程师肯定认为这是鬼扯。但也只能去现场，结果到现场发现女士说得真没错。

原因呢？
工程师发现，这家超市卖玫瑰花和百合花不在一个地方，百合花离停车场近，因为买花时间短，车没问题。而玫瑰花离得远，车凉了，就没法发动了。

故事 21:

微软工程师接到客户电话，投诉晚上会宕机，查不到原因。微软工程师建议客户晚上值班看看，结果，只要有人值班就不会宕机，只要没人就宕机。
后来，查到原因，因为没人值班，不开空调！

你看，数据间的因果关系，是比较复杂的。不能看局部，要看全景。

故事 22:

大家应该都看过通过google搜索预测流感的例子，实际上，后来发现很多预测是不准的，这是因为那些搜索流感的人，正是那些对流感很在乎很注意防护的人，这就导致当地得流感的人反而少了。

故事 23：

另外一个例子，美国印地安纳州，是美国肺癌死亡率最高的州，你马上就会觉得，这个地方空气肯定不好。其实，这里空气特别好，就是因为空气太好了，所以很多肺癌病人都搬到那里去了，而且死在那里，于是有了这样的数据。如果你不明就里，拿着空气净化器跑来推销，很明显会失败。

现实的情况总比预想的要复杂，我们能做的应该是猜测，验证和迭代。

好了，收集好了理解好了数据，如何使用数据？

生活中，我们对数据的使用，往往是靠感觉来。自然，经常会有一些不靠谱的决策。

【理解，模型，量化】

使用好数据做决策，做好三步：理解挑战，建立模型，量化变量。

【可视化】

用数据可视化塑造受众的感觉。

好的数据可视化要兼顾高效和美观。

故事 24:

经典的可视化分析图：1854年4月到1855年3月这一年战争期间非战斗死亡和战斗死亡的总量比例的图片。不是常规的柱状图，而是用了一个圆盘，像一个旋转的大风车的叶片，叶片有大有小。非战斗死亡的红色部分，面积远远大于同时期的战斗死亡的蓝色部分。

学会了操作数据，如何防止被数据操纵呢？

数据被操纵有几种情况。

一是操纵数据的使用。

几家平台都说自已的流量是第一。证据是平台播出的电视连续剧收视率第一。但是，各家的定义不一致，有的使用平均收视率，有的用单集最高收视率，有的用首播重播合计收视率。

故事 25:

世界杯一开始，赌球就开始了。网站上会有服务，给你推荐心水，连推三场（免费），你会发现三场都猜中了。这里，网站问你要不要给你推荐第四场，但这里要收费了，一万元一场，你会参加吗？你能了解这背后的骗局吗？

相信了解数据概率的人会想清楚这个骗局。

二是操纵数据的产生。

提问的顺序会影响被调查者的回答。

三是操纵数据的解释。

故事 26:

网上有段子，汉朝8000人养1个公务员，唐朝是3000人，明朝是2000人，清朝是1000人，而今天是 18 人。暗示这个时代公务员太多了。这个错误是没有条件地按比例放大或缩小，随着人口规模的上升，公共服务需要的人数不是按线性比例增加的，应该是按几何程度增加的。只有在合理的理论框架下，才能评价18人养1个公务员是多还是少。

世界是量的，而不质的。本质的世界只是存在于我们的头脑中，我们能触摸的只有形成的世界，而触摸到这个形成的世界的方式就是通过量。

只有量的竟争才能让我们暂时达成共识，而观念的争论只会让我们自说自话，相互无法认同。

字码到这里，我已经码不动了，先写这么多了。

文中很多观点和资料取自得到的课程宣明栋《数据思维课》。