线性回归模型全攻略：原理、步骤与应用实例

最新推荐文章于 2024-08-19 23:38:48 发布

..蓝桉...

最新推荐文章于 2024-08-19 23:38:48 发布

阅读量1.4k

点赞数 22

文章标签：线性回归算法回归人工智能机器学习 python

本文链接：https://blog.csdn.net/anan6699/article/details/139688101

版权

基本概念

理论：

在线性回归中，我们通常有一个或多个自变量 (X) 和一个因变量 (Y)。模型的目标是找到一条最佳拟合直线，使得这条直线能够最好地描述 (X) 和 (Y) 之间的关系。这条直线的方程通常表示为：

(Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p + \epsilon)

其中，

(Y) 是因变量（目标变量）
(X_1, X_2, ..., X_p) 是自变量（特征）
(\beta_0, \beta_1, ..., \beta_p) 是模型的参数，需要通过数据来估计
(\epsilon) 是误差项，代表模型未能解释的部数学角度（x,y）样本点如下，

x = [-10.0, -9.310344827586206, -8.620689655172413, -7.931034482758621, -7.241379310344827, -6.551724137931034, -5.862068965517241, -5.172413793103448, -4.482758620689655, -3.793103448275861, -3.1034482758620685, -2.413793103448276, -1.7241379310344822, -1.0344827586206886, -0.3448275862068968, 0.3448275862068968, 1.0344827586206904, 1.724137931034484, 2.4137931034482776, 3.1034482758620694, 3.793103448275863, 4.482758620689657, 5.172413793103448, 5.862068965517242, 6.551724137931036, 7.241379310344829, 7.931034482758623, 8.620689655172416, 9.310344827586206, 10.0]
y = [-19.327834192249103, -16.960548710496695, -15.15047288232084, -15.546355506454457, -11.67266288650671, -13.050253541213872, -10.698446128963909, -7.5039376335440915, -8.496728132877196, -5.73724840292396, -6.094514126404267, -1.994407824146189, -2.956163837817871, -0.299982883421523, 2.0898380222148876, 1.1267947525011874, 3.2897807692186363, 4.638428459471443, 4.6289515025978805, 9.188798563593132, 9.114858720941381, 10.791059583376466, 12.005294777206565, 14.682098999790966, 15.682655336382602, 16.04047396959422, 15.434400197992007, 16.476538934939548, 17.779983392647406, 21.905971881991455]

根据上图，我们可以看到样本点的分布大概呈现出y = kx+b的一种形式

因此我们可以推断这个函数是y = kx+b,(x,y)是样本点，也就是已知的，w是权重值，y的预测值。

随后，为了方便模型精度的提升，我们可以给k,b一个初始值

评价参数值

有了初始值后的 𝑦=0.5𝑥+0.5 ，如何衡量 𝑘=0.5,𝑏=0.5 是最佳的值呢？

取上面 (𝑥,𝑦) 的一对值，比如 𝑥=−10.0,𝑦=−19.3
把 𝑥=−10.0 ，代入 𝑦=0.5𝑥+0.5=−4.5
接下来如何衡量预测值 -4.5 与真实值 -19.5 的差距呢？

用预测值与真实值的平方差来表示：预测值与真实值的差距

即差距预测值真实值差距=(预测值−真实值)2

下面用符号来表示

差距: 𝐿
预测值: 𝑦^
真实值: 𝑦

即差距: 𝐿=(𝑦^−𝑦)2
当 𝑦^ 与 𝑦 很接近时， 𝐿 会很小，最小=0
当 𝑦^ 与 𝑦 差距很大时， 𝐿 会很大
这样找函数参数就变成了找 𝐿 的最小值问题
找到了 𝐿 的最小值，也就间接找到了最佳的 𝑦=𝑘𝑥+𝑏
因为 𝐿=(𝑦^−𝑦)2=(𝑘𝑥+𝑏−𝑦)2
𝐿 是受 𝑘,𝑏 值影响的， 𝑘,𝑏 取不同的值， 𝐿 就会变化， 𝐿 也叫损失函数，loss

损失函数

作用：
主要作用是量化模型预测值与实际值之间的差异，即模型预测的错误程度。通过最小化这个损失函数，我们可以优化模型的参数，使得模型的预测结果更加接近真实值。

方法：

1、经济学：
GDP与失业率之间的关系：通过收集历年的GDP数据和失业率数据，建立线性回归模型，可以分析两者之间的线性关系。例如，发现GDP增长1%时，失业率可能下降0.5个百分点。这为经济政策制定提供了重要的支持。
物价与消费者支出之间的关系：类似地，通过收集物价指数和消费者支出的数据，可以分析物价变化对消费者支出的影响。例如，发现物价指数上涨1%时，消费者支出可能增加0.8%。

2、市场营销：
1、广告投入与销售额之间的关系：市场营销人员可以通过收集不同广告投入水平下的销售额数据，建立线性回归模型，以预测未来广告投入对销售额的影响。例如，发现广告投入增加10万元时，销售额可能增加50万元。
2、产品价格与销量之间的关系：通过收集不同价格水平下的产品销量数据，可以分析价格弹性，即价格变化对销量的影响程度。例如，发现价格降低10%时，销量可能增加20%。

3、医学研究：
1、药物剂量与治疗效果之间的关系：医学研究人员可以通过临床试验收集不同药物剂量下的治疗效果数据，建立线性回归模型，以评估最佳的药物剂量。例如，发现某种药物在剂量为X毫克时，治疗效果达到最佳。
2、生活方式与健康指标之间的关系：通过收集不同生活方式（如饮食习惯、运动频率等）下的健康指标（如血压、血糖等）数据，可以分析生活方式对健康的影响。例如，发现每周运动3次以上的人群，血压和血糖水平普遍较低。
4、教育评估：
1、学习时间与考试成绩之间的关系：教育工作者可以通过收集学生的学习时间和对应的考试成绩数据，建立线性回归模型，以评估学习时间的投入对考试成绩的影响。例如，发现每周学习超过X小时的学生，考试成绩普遍较高。
2、教育投入与学生表现之间的关系：类似地，可以分析学校的教育投入（如教师数量、教学资源等）与学生表现之间的关系。例如，发现教育资源丰富的学校，学生表现普遍较好。
5、人力资源管理：
1、员工培训时间与绩效之间的关系：人力资源管理者可以通过收集员工培训时间和对应的绩效数据，建立线性回归模型，以评估培训效果。例如，发现经过X小时培训的员工，绩效普遍提高Y个百分点。
2、工资与员工满意度之间的关系：通过收集员工的工资和满意度数据，可以分析工资水平对员工满意度的影响。例如，发现工资水平提高10%时，员工满意度可能增加5个百分点。
这些实例展示了线性回归在不同领域中的应用，通过收集和分析数据，可以建立线性回归模型来预测和解释变量之间的关系，为决策提供支持

根据上面的例子我们可以看出他们两者关系呈现出线性关系

局限性

1、线性假设：
1、线性回归模型的核心假设是自变量和因变量之间存在线性关系。然而，在现实世界中，许多变量之间的关系可能是非线性的。这意味着线性回归模型可能无法准确地拟合这类数据，从而导致预测结果不准确。
2、例子：在经济学中，收入和消费之间的关系可能不是简单的线性关系，而是随着收入的增加，消费的增长速度逐渐放缓（即边际消费倾向递减）。这种情况下，线性回归模型可能无法准确捕捉这种非线性关系。
2、异常值敏感：
1、线性回归模型对异常值（也称为离群点）非常敏感。异常值是指那些与其他观测值明显不同的数据点，它们可能是由于数据收集错误、测量误差或特殊事件等原因产生的。异常值可能会严重影响线性回归模型的拟合效果，导致回归系数的估计不准确。
2、例子：在房价预测模型中，如果某个数据点由于输入错误导致房价异常高或异常低，那么这个异常值可能会显著影响模型的预测精度。
3、多重共线性：
1、当自变量之间存在高度相关性时，即存在多重共线性问题时，线性回归模型的稳定性可能会受到影响。多重共线性可能导致回归系数的估计不准确，甚至出现符号错误的情况。
2、例子：在预测销售额的模型中，如果同时引入了广告费用和促销活动的投入作为自变量，而这两个变量之间存在高度相关性（例如，广告费用越高，促销活动也越多），那么就可能出现多重共线性问题。
4、输出范围限制：
线性回归模型的输出范围是连续的实数，这使得它无法直接应用于分类问题中的离散类别。例如，当我们要判断一封电子邮件是垃圾邮件还是正常邮件时，线性回归模型无法给出“垃圾邮件”或“正常邮件”这样的离散输出。
5、模型复杂度：
线性回归模型是一种相对简单的模型，它可能无法捕捉数据中的复杂结构和关系。对于具有复杂关系的数据集，可能需要使用更复杂的模型（如神经网络、决策树等）来获得更好的预测效果。
6、假设检验的局限性：
线性回归模型的假设检验（如t检验、F检验等）依赖于一些假设条件（如残差的正态性、同方差性等）。然而，在实际应用中，这些假设条件可能并不总是成立，从而导致假设检验的结果不准确。
综上所述，线性回归模型虽然是一种强大且广泛使用的数据分析工具，但在应用时需要注意其局限性，并根据实际情况选择合适的模型和方法来进行分析和预测。