目录
前言
数据之道,路漫漫其修远兮,吾将上下而求索。
一、数据的商业价值
先来思考以下问题:第一,企业靠什么活着?答:收入!即使没有现在的收入,也得有未来可预期的收入。第二,企业为了获得收入,需要做什么?答:支出。第三,没有任何企业对自己未来的收入和支出是100%确定的,因为这里面有很大的不确定性,而不确定性带来的是什么?答:风险。
熊大关于数据的商业价值理论理论框架的三个关键词:收入、支出、风险。任何数据产品,如果可以帮助客户,在这三个方面中的任何一个方面实现可量化的改进,那么这个数据的商业价值就比较容易说清楚,否则非常困难。
二、数据到价值的转化:回归分析的“道”与“术”
如何把数据转化为价值,需要一个非常精妙的思想方法:回归分析。回归分析是数据分析的一个非常重要的模型方法。这些模型可能是线性的、非线性的,参数的非参数的,一元的、多元的,低维的、高维的,不尽相同。但这都是在“术”的层面讨论回归分析,其实,回归分析还有一个更高的“道”的层面。
回归分析的“道”:
在这个层面,回归分析可以别抽象成一种重要的思想。在这种思想的指引下,人们可以把一个业务问题定义成一个数据可分析问题。一个问题是不是数据可分析,只需要回答两点:第一,Y是什么;第二,X是什么。
Y:俗称因变量,在实际应用中,Y刻画的是业务的核心诉求,是科学研究的关键问题。
X:解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X区预测Y的目的。
X:是什么样的?为此,我们需要寻找优质的X,简单来说就是对Y影响最大的X。
回归分析的“术”:
接下来从“术”的层面探讨,回归分析还要完成什么使命。一般而言,至少对于参数化的线性回归模型来说,需要完成三个使命:
使命1:回归分析要去识别,那些X变量是同Y真的相关,那些不是。
使命2:有用的X变量同Y的相关关系是正还是负。
使命3:赋予不同X不同的权重,也就是不同的回归系数,进而知道不同变量之间的相对重要性。
识别重要性;判断相关性方向;估计权重(回归系数)
简单来说:从“道”的层面而言,回归分析就是把一种业务问题定义成一个数据可分析问题的重要思想。而从“术”的层面,回归分析要完成三个重要的使命。
今天暂时更新至此