大数据决策的五个阶段

原创 HANSEN老师 汉森定理 2022-12-11 17:37 发表于北京
配图by汉森老师
「配图摄影 by 汉森老师」

互联网和消费金融是大数据应用最为广泛的两个行业,产生了所谓大数据风控、大数据营销等细分领域。

大数据是指具有海量、高维、动态、多源、非结构化等特征的信息载体。本文所说的大数据决策本质上是使用大数据提升决策质量,获得更好的决策结果的过程。

很多人都在谈“数据驱动”,但不是有数据就能驱动决策,数据与决策中间的一环是知识,而从大数据到知识需要一些“想象力”。有想象力(或是有想法)的人在任何一个时代都是稀缺的。

目录

什么是数据到知识的想象力?
我们如何获取知识?
从知识到决策
大数据决策的五个阶段
1、什么是数据到知识的想象力?
谈到”想象力“一词,不得不提到米尔斯上世纪50年代写的一本书——《社会学的想象力》,我们就从这本书谈起。

米尔斯认为,这是一个注意力被信息主宰的时代,在这个时代我们需要一种运用信息,发展理性,以求清晰地概括出周遭世界正在发生什么,自己又会遭遇到什么的特定的心智品质,米尔斯称之为“社会学的想象力”。当我们运用这种想象力探究事物,获得知识时,会有“仿佛在一座本该熟悉的房子里突然惊醒”的感觉。

米尔斯说,抽象经验主义者的研究往往会陷入了一种标准化的模式,随便一个资质平庸的人,也可以通过训练,熟练掌握这一套程序,进而批量生产研究成果。

在现代西方社会,“实验室技术”成为普遍接受的程序模式和学术保障的源泉。他们运用先进的实验仪器,通过标准化的实验程序,“拿到数据”或“跑一下数据”,正如米尔斯所言,无论这种程序多么复杂,“也依然是对于已显示的那种资料的摆弄”,无法生产出有穿透力的理论或知识。

米尔斯的社会学想象力所依赖的信息来源和途径局限于个人体验和历史经验,虽然这种想象力有助于我们对概念的打造、理论的打磨和常识的打破,但米尔斯严重低估了通过数据方法生产知识和理论的能力。

那什么是数据到知识的想象力呢?

借用米尔斯的概念,即是运用数据和信息,使用数据模型和算法模型工具,通过数理逻辑来转化为概念或理论,从而对世界运行规律进行认知的特定心智品质。

大数据时代,人类获取数据和信息的方式和能力发生了本质性的变化。海量数据涌现,使得隐藏在这些海量数据中的知识呈现不确定、复杂性和多样性。

大数据刻画了个人或群体在生活、工作、娱乐、学习等方面的规律和模式,为了洞悉这些隐性知识,我们必须借助想象力,使用数据模型和算法模型工具,通过数理逻辑来转化为概念或理论,完成从数据到知识的”相变“,这个相变就是知识生产的过程。

在商业活动中,无时无刻不在产生大量的数据。但大多数时候,这些数据是零散的、不规律的,这就是我们常说的原始数据。原始数据本身并不具备价值,只有从数据中产生知识,才能产生价值。

2、我们如何获取知识?
人类求知活动有两个目的:其一,由了解并适应其环境起,进而企图改变并控制其外在物质世界,获得生存的安全与舒适,从而发展了各种科学和技术;其二,由了解二自身与人己关系起,进而企图化解困惑与冲突改变起内在精神世界,获得生活的意义与价值,从而发展了不同的哲学和宗教。

人们寻求概括了解周围的事物,想要预知未来,而且愿意用因果和概率的推理来进行预测,并尝试把握事物中的规律性。但我们在认知的过程中,常常犯错误,这种错误主要包括以下几个方面:

不确切的观察,靠猜测得出错误结论,如,我(张文宏)感觉疫情的高峰是一个月后。
过度概括化,在有限的观察基础上,做了过度的概括,如,隔壁老王的儿子小学毕业,当了大老板,因此读书无用。
选择性观察,忽略与自己内心认可的结论相抵触的证据,只选择相信那些支持性证据。如,坐飞机不安全。
非逻辑推理,用不合逻辑的方式处理观察得到的结论与实践的矛盾,如赌徒认为风水轮流转,再接着玩几把,好运就会降临。
科学可以帮助我们避免这些错误,通过谨慎细致的测量手段获取数据,可以帮助我们避免不确切观察,运用足够多的样本观察以及重复研究来避免过度概括化,科学家对每项研究都会事先设定观察事项,并以此作为推论的基础,避免选择性观察。科学有意识地运用逻辑体系来避免违反逻辑的错误。

我们经常说”科学性“,那什么是科学性呢?所谓科学性就是可证伪性。现代科学的两大支柱就是:逻辑和实证,即任何科学理论或知识都必须言之成理且符合我们的对现实的观察。

那如何科学地获取知识和认知世界呢?具体来说有四个方面:

借助抽象思维的理论推理或演绎归纳,如苹果落地与万有引力
实验验证,如物理实验、化学实验,还有互联网线上对照实验
模拟验证,如计算机程序模拟验证谢林隔离模型
大数据分析,通过大数据发现事物的规律和固定模式
如何通过大数据分析来认知规律、生产理论和知识呢?

这就涉及到数据科学。

数据科学是一个新兴的跨学科研究领域。数据科学的研究方向大致可分为两类,一类是工具和方法论研究,如因果推断(因果推断的盖世五侠:随机实验、回归、工具变量、断点回归、双重差分)、统计学、机器学习、数据可视化、数据库等领域,另一方面是应用研究——使用数据科学的工具和方法来做研究。

大数据分析则属于数据科学的应用方面。

3、从知识到决策
我们在现实世界始终面临各种不确定性,不确定性让我们时刻都在进行各种选择和决策,不同的决策会导致不同的结果。我们依赖理性或者说知识,来应对决策时的各种不确定性。有些是”工具理性“,而有些是”价值理性“,如通过甲骨占卜或观星预测吉凶,也通过是否正义,来决策要不要发动一场战争。

决策实质上是一种不可逆的对稀缺性资源(如金钱、人力和时间)进行配置的过程。所谓不可逆,是指决策一旦执行,是不可逆的。因此,为了得到更好的资源配置结果,我们希望由一个好的高质量的决策。然而决策的质量并不取决于决策的结果,而是却决于决策的过程。

在面临决策时,我们总是面临各种不确定性,有些不确定性受我们控制,有些不受控制,而不受控制的不确定性由于我们无法完全规避,可能会带来比较差的结果。因此,决策好坏不由决策结果决定,我们只能通过完善的决策过程帮我们尽可能实现比较好的结果。

从大数据中获取规律和知识,提升了人类的认知能力,使得我们对复杂事物的认识根据深刻、丰满和全面,从而提高了决策的质量。

4、大数据决策的五个阶段
如何通过大数据分析提高决策质量呢?

大数据决策实际上是把数据采集和聚合、模式和规律认知、基于知识的决策和执行过程有机地统一起来。

因此,从大数据到决策主要经历五个阶段:

第一个阶段:研究和分析主题的定义。这一阶段需要明确分析和决策的问题、主题、目的或者假设具体是什么。

第二个阶段:数据的采集和聚合。在这一阶段,要弄清楚有没有数据可供分析,如果没有数据,则需要收集数据(如实验、埋点、三方数据接入),如果有数据,要知道数据在哪里,怎么整合起来。数据的积累和优化、整合是一个长期过程。

在这一阶段,对数据质量的评估是重中之重,如果数据本身存在问题,再科学的分析也与实际不符。

第三个阶段:分析和挖掘。要运用自己从数据到知识的想象力,使用各种统计学、机器学习、因果推断、数据可视化等工具和方法,从数据中挖掘规律,建立认知,产生知识。

大数据具有海量、高维、多源、异构、非结构化等特点,采用不同的处理方法与分析方法,得到的结论可能截然不同,因此选择合适的分析方法是这一阶段需要重点考虑的事情。

关于大数据风控的一些分析方法,可参考历史文章:

熟练掌握风控策略的换入换出(Swap Out & Swap In)分析

风险客群下探的设计实施与数据分析方法

决策树算法原理以及决策树规则生成方法

基于交叉表(列联表)的风控规则生成方法

产生知识之后,将知识应用于决策,对现实产生影响,才能释放数据和知识的价值,因此还有两个阶段。

第四个阶段:模拟和求解,将决策问题转化为数学模型,通过对决策期望结果的最优化进行求解。

现实中我们需要决策的问题往往具有很高的复杂性。因此我们需要一个考虑了本质原因的简化模型来模拟现实世界。当我们限定决策的范围和目标后,运筹学有很多优化方法帮助我们找到全局或局部最优解。

第五个阶段:评估和决策,谨慎而充分地评估策略所产生的影响和结果后,进行实际决策,对现实产生影响。

进行实际决策后,会产生新的数据和新的问题,这样又从第一个阶段开始,循环往复,不断提升我们对事物的认知水平,获得可预见的事物发展规律,让决策过程变得更加科学、客观,从而不断提高我们的决策质量,进而越来越多地产生更好的决策结果。

历史文章:

关于数据驱动消费金融业务的几点看法

谈谈“因果推断”问题

如何定位风控策略分析师的水平和能力?

消费信贷产品的损益(P&L)分析方法论

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值