定义:通过一个或多个预测变量(自变量)与预测响应变量(因变量)的方法称为回归分析法。当模型包含一个预测变量和一个响应变量时,称为简单线性回归;当模型包含一个预测变量的同时还包含该变量的幂(比如: X ,
X2 , X3 ),称为多项式回归;当预测变量不止一个时,称为多元线性回归。注:多项式回归属于多元线性回归的特例。函数:lm()。注:lm()函数需要的是数据框,如果数据集是数据框,通过as.data.frame()函数把数据集转换为数据框形式。
选择预测变量:从大量候选变量中选择最终的预测变量有三种方法:向前逐步回归法、向后逐步回归法和全子集回归法。向前逐步回归法每次添加一个预测变量到模型中,直至添加变量不会使模型有所改进为止。向后逐步回归法从模型包含所有预测变量开始,一次删除一个变量直至会降低模型质量为止。逐步回归法(包括向前逐步回归法和向后逐步回归法)中不是每一个模型都被评价,虽然它会找到一个好的模型,但并不能保证该模型即是最佳模型,为克服这个限制,可以用全子集回归法。大多数情况下,全子集回归法要优于逐步回归法,但当有大量预测变量时,劝自己会很慢。因此根据需求,选择适合的方法最重要。
例1:研究state.x77数据集(该数据集是矩阵形式)中谋杀率与哪些因素有关?
计算state.x77相关系数,并使结果可视化
> states <- as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])#将矩阵形式的数据集转换成数据框
> co