简单线性回归模型描述了两个变量x和y之间的关系,用以下方程表示。θ0 和θ1为参数,ξ为误差。
y=θ0 +θ1x + ξ
线性回归模型的目标是通过减少响应变量的真实值与预测值的差值来获得模型参数,即使得残差平方和最小。
下面给出线性回归的例子。在数据集MASS cats中,它包含了两个随机变量Bwt和Hwt的样本数据,主要描述成年雄猫和雌猫的体重和心脏的重量。
Sex:性别,由F和M标识;
Bwt:体重,单位kg;
Hwt:心脏重量,单位g;
做出Bwt和Hwt之间的散点图:
从上面的散点图中可以得到,可以使用简单线性回归,找出它的系数。回归使用普通最小二乘法(Ordinary least squares)和拟合线性模型:yi = θ0+ θ1xi + εi,εi为误差项。线性回归模型可以表示为:
Hwt=θ0 +θ1* Bwt + ξ
计算回归的方程
为了计算回归方程,在简单线性回归模型中,我们选择参数θ0 和θ1 ,并最小化ξ的平方和。那么只要根据x找到合适的y即可:
ypredict =θ0 +θ1* x
根据cats数据集上的简单线性回归模型,估计下一个cat的Hwt,它的体重为3.3kg时?
我们采用lm函数根据Bwt变量计算Hwt,然后提取回归方程的参数,见下图
在这种情况下,回归方程是
y=-0.35 + 4.03 * x
现在可以根据回归方程就可以估计出Bwt=3.3kg时,cat的Hwt是多少了。
根据简单线性回归模型,cat的Hwt=3.3kg时,它的Hwt为13.84g。
显著性检验
在线性回归模型中,假设ξ和x是相互独立的,并且属于均值为0方差为常数的正态分布,那么通过检验无效假设θ1= 0来确定x和y是否存在显著关系。接下来我们确定在显著水平为0.05的线性回归模型中Bwt和Hwt之间的显著关系?
由于p-value的值远小于0.05,拒绝无效假设θ1= 0,因此基于cats数据集的线性回归模型变量之间的关系显著。