1. 什么是回归
“回归”这一个词是由英国维多利亚时期的博学科学家法兰西斯.高尔顿(Francis Galton)首先提出来的。
法兰西斯.高尔顿再利用统计方法研究人类遗传学中发现,父母高,儿女也高;父母矮,儿女也矮,但是给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人类的平均身高,即“回归于平均值”。
2. 回归分析
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
①按照涉及的变量的多少,分为一元回归和多元回归分析;
②按照因变量的多少,可分为简单回归分析和多重回归分析;
③按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
3. 回归分析的步骤
确定变量
明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和