线性回归预测模型
应用场景:根据已知的变量(自变量)来预测某个连续的数值变量(因变量)。
Part 1: 一元线性回归模型
一元线性回归模型指模型中指包含一个自变量和一个因变量。这里用收入数据为例,探究工作年限和收入之间的关系。
import
[Out]:
sns
[Out]:
上图反应的就是自变量YearsExperience和因变量Salary之间的散点图,从散点图的趋势看,YearsExperience和Salary之间存在着正相关关系,工作年限越长,工资就越高。图中的直线就是关于散点图的线性回归拟合线。但如何得到拟合线的数学表达式呢?
一元线性回归模型的数学表达式为:
得到拟合线的数学表达式即为,根据自变量x和因变量y,求解回归系数a和b。如果拟合线能够精确地捕捉到每一个点(所有的散点图均落在拟合线上),那么对应的误差项为0。按照这个思路,得到理想的拟合线,就必须使误差项达到最小。误差项达到最小的问题可以转化为误差项平方和最小的问题。以下为数学推导过程:
以上便是一元线性回归模型背后的参数求解过程。Python中可直接调用模块statsmodels中的ols函数计算。
Part 2: 多元线性回归模型
实际问题中,影响因变量的自变量往往不止一个,从而需要将一元线性回归模型扩展到多元线性回归模型。以下为多元线性回归模型中偏回归系数的数学推导过程。
基于已知的偏回归系数,便可以构造多元线性回归模型。
如果你觉得以上内容有价值或对你有一丝启发,请点击“赞同”,并分享给身边有需要的朋友,谢谢。