回归分析是统计学的核心。它其实是一个广义的概念,指那些用一个或多个预测变量来预测响应变量的方法。通常,回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量。
下面介绍如何用R函数拟合OLS回归模型、评价拟合优度、检验假设条件以及选择模型,为了能够恰当地解释OLS模型的系数,数据必须满足以下统计假设↓
正态性:对于固定的自变量值,因变量值成正态分布。
独立性:Yi值之间相互独立。
线性:因变量与自变量之间为线性相关。
同方差性:因变量的方差不随自变量的水平不同而变化。也可称作不变方差,但是说同方差性感觉上更犀利。
如果违背了以上假设,统计显著性检验结果和所得的置信区间就很可能不精确了。而现在机器学习中的回归都完全忽略了这一点,它认为现在的数据都是大数据了,其实,很多时候我们得到的不是所谓的大数据。
在R中,拟合线性模型最基本的函数就是lm(),格式为:
fit
其中,formula指要拟合的模型形式,data是一个数据框,包含了用于拟合模型的数据。结果对象存储在一个列表中,包含了所拟合模型的大量信息。
表达式(formula)形式如下↓
Y ~ X1 + X2 + ... + Xk
~ 左边为响应变量,