模型一般形式
统计模型的一般形式是Y=m(X)+e。其中Y为输出变量、响应变量、因变量、被解释变量;m为均值;e为不可控因子,可以理解为噪声。故模型等式右边是用X组成的函数去描述Y的均值,即模型是在平均的意义下去描述自变量与因变量间的关系,所以在解读模型的时候,我不会将模型说死。
模型中不同形式的m(X)会幻化为不同的模型体系,一般可以将模型分为两大类:
- m(X)可以幻化为数学公式,即公式模型,一般比较成熟的都是公式模型,例如回归模型的理论与底蕴就比较完善,模型的假定都是可以进行检验的;
- m(X)过于复杂,用公式无法描述,需要用算法去描述,即算法模型,例如决策树模型。
其实,建模的作用就是将看上去不太可能的事情联系到一起,同时又能将事情的来龙去脉解释清楚。模型构建之前都有假定,模型构建的好不好、是否合适都取决于模型是否符合假定,当然更核心的还是要关注模型在业务场景的应用,这才是建模的最主要的目的。
回归的基本思路
在模型领域,解释性较好的模型毋庸置疑就是回归。回归模型主要能做两件事情,一是用模型去体现事物间的关系,即解释模型变量间的关系;二是用模型进行预测。
如下图所示,回归建模的工作流程即 将客观现实转化为数据后进行建模,终极目标是用数学模型将事物的来龙去脉解释清楚,作为数据分析师,讲故事的能力