线性回归应用简要介绍

本文简单介绍了线形回归模型的使用场景、原理以及使用时的注意事项,下一篇会进入代码实践。

目录

1、线性回归的应用场景

1.1 做预测

1.2 用来做模型解释

1.3 实验效果评估

2、线性回归原理

3、线性回归使用时的注意事项


1、线性回归的应用场景

        线性回归是机器学习中较容易理解的一个白盒模型,因为其有着较为通俗的表达式y = \beta _{0} + \beta _{1} x_{1} + \beta _{2} x_{2} + ... + \beta _{n} x_{n} + \varepsilon,这个表达式能够较为清晰地告诉我们因变量y和自变量x{_{1}},x{_{2}},...,x{_{n}}之间的线性关系,例如当其他变量保持不变时,x{_{1}}每增加一个单位,因变量y会改变\beta _{1}倍,所以有着很广泛地应用场景。

1.1 做预测

        当我们关心的因变量y是连续变量,并与其影响因素x{_{1}},x{_{2}},...,x{_{n}}有线性关系时,都可以用它进行建模,例如预测信用卡用户生命周期价值时,可以建立其与用户所在小区平均收入、年龄、学历、收入等之间地线性模型,预测用户的生命周期价值,然后给用户评级。

1.2 用来做模型解释

        当我们想通过温度、湿度、季节、是否周末、节假日、总用户数等因素预测单车租赁量时,可以建立xgboost、dnn等黑盒模型先进行预测得到租赁量\hat{y},接着再通过一个白盒模型如决策树、线性回归等模型以自变量x{_{1}},x{_{2}},...,x{_{n}}作为输入变量,以\hat{y}作为目标变量进行建模,用来了解黑盒模型的运作机制,并对其作出解释。

1.3 实验效果评估

(1)全量实验效果评估

        全量实验评估是指当在时间点T_{0}时,对全量用户加入干预策略,然后评估策略所带来的影响。进行评估时,核心是要剥离其他因素,对实验效果进行评估,线形回归就能解决这个问题。举例来说,某公司的订单量y主要受价格x的影响,在某时间点上线了新的系统能够提高效率(假设效率对和价格是非相关的),要评估新系统对订单量y的影响。这时就可以建立订单量和价格x以及是否上线新系统t这两个因素的线性模型,从而得到干净的策略影响。

(2)AB实验

        当进行AB实验时,假定我们有两组无差异的用户群体A_{1}A_{2},以A_{1}作为实验组对其施加策略干预,A_{2}作为对照组不采取施加任何策略,来评估实验对观测变量的影响,可以采取t或z检验来得到结果,当然也可以建立线性回归模型y = \alpha + \beta * exp + \varepsilonexp为是否为实验组的哑变量(当策略变多时,也可为分类变量),通过检验参数\beta的显著性即可得到策略的效果。

2、线性回归原理

        以最简单的一元线性回归为例,有一组样本数据(x_{1},y{_{1}}),(x_{2},y{_{2}}),...,(x_{n},y{_{n}}),对其做线性回归预测时,就是找到一条直线使样本点到这条直线的距离最短。假设这条直线能够表示为y = \beta _{0} + \beta _{1} x + \varepsilon,由于\beta _{0}\beta _{1}的值未知,需要用样本点来估计,达到实际值和预测值之间的残差最小,即min\sum (y_{i} - \hat{y_{i}})^{2},将\hat{y_{i}}\beta _{0} + \beta _{1} x_{i}带入,并分别对\beta _{0} , \beta _{1}求偏导,并令导数为0,即可求出两个系数的估计值,这种求解方法就是最小二乘法。

        多元线性回归对应的原理也是类似的,差别点在模型的变量筛选,即以什么样的方法什么样的标准判定哪些变量应该进入模型。常用的方法有向前筛选、向后筛选、逐步筛选,筛选过程中遵循的标准有AIC、BIC、P值等。

3、线性回归使用时的注意事项

        使用线性回归模型做预测时,有几个注意事项,特别是残差的假设和分析能够提供很多信息,帮助我们判断模型是否可用,以及下一步的调整方向。这一部分会简单介绍一下理论部分,在下一篇会用python进行具体的实践。

(1)因变量和自变量要有线性关系

        这个对应到的时整个回归模型地检验,即F检验,原假设是系数都为0,当F检验的统计量落到拒绝域或者p值小于0.05时,即可拒绝原假设,即能证明至少有一个自变量和因变量有线性关系。

(2)残差与自变量不相关,且期望为0(不能检验,可通过残差图来观察)

(3)残差与残差之间相互独立,且都服从期望为0,方差为\sigma ^{2}的正态分布

        一般用残差图检验残差是否独立同分布以及是否满足方差齐性,也可以检验残差的偏度、封度是否和接近正态分布。

(4)自变量间的多重共线性问题

        自变量之间如果存在强相关关系时,会造成回归系数和截距的估计不稳定。模型是否存在共线性问题,可用方差膨胀因子来检验。方差膨胀因子的计算公式是:

VIF_{i} = \frac{1}{1-R{_{i}}^{2}}VIF_{i}x_{i}的方差膨胀系数,R{_{i}}^{2}是以x_{i}作为因变量,建立与其他自变量之间的线形回归模型时得到的R^{2}

        实际操作中用方差膨胀因子进行变量多重共线性的判定会特别繁琐,可以使用岭回归、Lasso回归来进行建模,模型能够对直接将有共线性变量系数收缩为0,其中Lasso回归的实用性更强。

下一篇将进入实践部分

  • 18
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值