多元线性回归尝试通过一个线性方程来适配观测数据,这个线性方程是在两个及以上的特征和响应之间构建的一个关系。
多元线性回归的实现步骤和简单线性回归很相似,在评价部分有所不同。
可以用来找出预测结果上哪个特征影响力最大,以及变量之间是如何互相关联的。
回归分析的假设前提:
1. 特征值和预测值应该是线性相关的
2. 保持误差项的方差齐性: 即误差项的分散(方差)必须等同
3. 多元正态分布: 假定残差符合正态分布
4. 缺少多重共线性: 假设数据有极少甚至没有多重共线性。当特征不是相互独立时,会引发多重共线性
注意:
过多的变量可能会降低模型的精确度,尤其是如果存在一些对结果无关的变量,或者存在对其他变量造成很大影响的变量时。
可以通过一些方法选择合适的变量:
1. 向前选择法(逐次加使RSS【残差平方和】最小的自变量)
2. 向后选择法 (逐次扔掉p值【一种在原假设为真的前提下出现观察样本以及更极端情况的概率】最大的变量)
3. 向前向后法: 结合向前选择和向后选择法,先使用向前或向后,再使用另外一种方法筛选一遍,直至最后无论怎么筛选模型变量都不再发生变化
虚拟变量陷阱:
虚拟变量是指两个及以上变量之间高度相关的情形。简而言之,就是存在一个能够被其他变量预测出的变量。
eg: 一个特征值为男,女。不加判断定义虚拟变量时会存在连个虚拟变量。但实际情况是可以用是否是女性来定义男性。
可以通过类别变量-1 来剔除重复。假设一个特征值有m 个类别