线性回归应用简要介绍_线性回归主要应用领域有哪些-CSDN博客

本文链接：https://blog.csdn.net/baidu_26137595/article/details/123535415

本文简单介绍了线形回归模型的使用场景、原理以及使用时的注意事项，下一篇会进入代码实践。

1、线性回归的应用场景

线性回归是机器学习中较容易理解的一个白盒模型，因为其有着较为通俗的表达式 $y = \beta _{0} + \beta _{1} x_{1} + \beta _{2} x_{2} + ... + \beta _{n} x_{n} + \varepsilon$ ，这个表达式能够较为清晰地告诉我们因变量和自变量 $x{_{1}},x{_{2}},...,x{_{n}}$ 之间的线性关系，例如当其他变量保持不变时， $x{_{1}}$ 每增加一个单位，因变量会改变 $\beta _{1}$ 倍，所以有着很广泛地应用场景。

1.1 做预测

当我们关心的因变量是连续变量，并与其影响因素 $x{_{1}},x{_{2}},...,x{_{n}}$ 有线性关系时，都可以用它进行建模，例如预测信用卡用户生命周期价值时，可以建立其与用户所在小区平均收入、年龄、学历、收入等之间地线性模型，预测用户的生命周期价值，然后给用户评级。

1.2 用来做模型解释

当我们想通过温度、湿度、季节、是否周末、节假日、总用户数等因素预测单车租赁量时，可以建立xgboost、dnn等黑盒模型先进行预测得到租赁量 $\hat{y}$ ，接着再通过一个白盒模型如决策树、线性回归等模型以自变量 $x{_{1}},x{_{2}},...,x{_{n}}$ 作为输入变量，以 $\hat{y}$ 作为目标变量进行建模，用来了解黑盒模型的运作机制，并对其作出解释。

1.3 实验效果评估

（1）全量实验效果评估

全量实验评估是指当在时间点 $T_{0}$ 时，对全量用户加入干预策略，然后评估策略所带来的影响。进行评估时，核心是要剥离其他因素，对实验效果进行评估，线形回归就能解决这个问题。举例来说，某公司的订单量主要受价格的影响，在某时间点上线了新的系统能够提高效率（假设效率对和价格是非相关的），要评估新系统对订单量的影响。这时就可以建立订单量和价格以及是否上线新系统这两个因素的线性模型，从而得到干净的策略影响。

（2）AB实验

当进行AB实验时，假定我们有两组无差异的用户群体 $A_{1}$ 和 $A_{2}$ ，以 $A_{1}$ 作为实验组对其施加策略干预， $A_{2}$ 作为对照组不采取施加任何策略，来评估实验对观测变量的影响，可以采取t或z检验来得到结果，当然也可以建立线性回归模型 $y = \alpha + \beta * exp + \varepsilon$ ， exp 为是否为实验组的哑变量（当策略变多时，也可为分类变量），通过检验参数 $\beta$ 的显著性即可得到策略的效果。

2、线性回归原理

以最简单的一元线性回归为例，有一组样本数据 $(x_{1},y{_{1}}),(x_{2},y{_{2}}),...,(x_{n},y{_{n}})$ ，对其做线性回归预测时，就是找到一条直线使样本点到这条直线的距离最短。假设这条直线能够表示为 $y = \beta _{0} + \beta _{1} x + \varepsilon$ ，由于 $\beta _{0}$ 和 $\beta _{1}$ 的值未知，需要用样本点来估计，达到实际值和预测值之间的残差最小，即 $min\sum (y_{i} - \hat{y_{i}})^{2}$ ，将 $\hat{y_{i}}$ 用 $\beta _{0} + \beta _{1} x_{i}$ 带入，并分别对 $\beta _{0} , \beta _{1}$ 求偏导，并令导数为0，即可求出两个系数的估计值，这种求解方法就是最小二乘法。