一元，多元线性回归分析

富士达幸运星

于 2024-08-18 21:12:17 发布

阅读量664

点赞数 27

文章标签：线性回归回归机器学习

本文链接：https://blog.csdn.net/2401_84670644/article/details/141305411

版权

一元与多元线性回归分析：从基础到应用

1. 线性回归概述

线性回归分析是一种用于研究一个或多个自变量与因变量之间关系的统计方法。它通过建立一个线性模型来预测因变量的值，并了解自变量对因变量的影响程度。线性回归分析广泛应用于经济学、金融学、社会科学等领域。

2. 一元线性回归

一元线性回归是线性回归分析的一种简单形式，它仅涉及一个自变量（独立变量）和一个因变量（因变量）。其基本模型可以表示为：
[ Y = \beta0 + \beta1 X + \epsilon ]

1.( Y ) 是因变量。
2.( X ) 是自变量。
3.( \beta_0 ) 是截距项，即当 ( X = 0 ) 时 ( Y ) 的预期值。
4.( \beta_1 ) 是自变量的回归系数，表示 ( X ) 对 ( Y ) 的影响程度。
5.( \epsilon ) 是误差项，表示模型中未能解释的部分。

步骤：

1.数据准备：收集并整理自变量和因变量的数据。
2.模型拟合：使用最小二乘法（OLS）估计回归系数 ( \beta0 ) 和 ( \beta1 )。
3.结果分析：分析回归系数，检查模型的拟合优度（例如，( R^2 )）和显著性检验。
4.预测与解释：根据模型对未来数据进行预测，并解释自变量对因变量的影响。

示例：
假设你是一名经济学家，想研究广告投入（( X )）对销售额（( Y )）的影响。你收集了广告支出和销售额的数据，通过一元线性回归分析。

代码示例：

你的代码实现了一元线性回归模型的构建和预测。下面是一个详细的解释和一些改进建议。
代码说明

1.导入库：

   import pandas as pd
   from matplotlib import pyplot as plt
   from sklearn.linear_model import LinearRegression

2.读取数据：

   data = pd.read_csv("data.csv")

这里假设你已经有一个名为 data.csv 的文件，并且该文件包含了两列数据：广告投入和销售额。

3.绘制散点图：

   plt.scatter(data.广告投入, data.销售额)
   plt.xlabel('广告投入')
   plt.ylabel('销售额')
   plt.title('广告投入与销售额的关系')
   plt.show()

这段代码绘制了广告投入和销售额的散点图，用于可视化它们之间的关系。

4.计算相关系数：

   corr = data.corr()
   print(corr)

这里计算了数据的相关系数矩阵，以检查广告投入和销售额之间的线性相关性。

5.建立回归模型：

  lr = LinearRegression()
   x = data[['广告投入']]
   y = data[['销售额']]
   lr.fit(x, y)

这部分代码使用 sklearn 的 LinearRegression 类建立回归模型。x 是自变量（广告投入），y 是因变量（销售额）。

6.模型评估和结果：

# 对回归模型进行检验
result = lr.predict(x)score = lr.score(x, y)
b = round(lr.intercept_[0], 2)  # 査看截距
k = round(lr.coef_[0][0], 2)  # 査看斜率
print(f"线性回归模型为:y = {k}x + {b}")

7.result 是对训练数据的预测结果。
8.score 是模型的决定系数 ( R^2 )，用于评估模型对数据的解释能力。
9.最后，打印回归模型的截距 ( b ) 和斜率 ( k )。

3. 多元线性回归

多元线性回归扩展了简单的一元线性回归，允许多个自变量对一个因变量进行建模。其基本模型可以表示为：
[ Y = \beta0 + \beta1 X1 + \beta2 X2 + \cdots + \betan X_n + \epsilon ]

1.( Y ) 是因变量。
2.( X1, X2, \ldots, X_n ) 是多个自变量。
3.( \beta_0 ) 是截距项。
4.( \beta1, \beta2, \ldots, \beta_n ) 是自变量的回归系数。
5.( \epsilon ) 是误差项。

步骤：

1.数据准备：收集并整理多个自变量和因变量的数据。
2.模型拟合：使用最小二乘法（OLS）估计回归系数 ( \beta0, \beta1, \ldots, \beta_n )。
3.结果分析：分析回归系数、检查模型的拟合优度（例如，( R^2 ) 和调整后的 ( R^2 )）以及显著性检验。
4.诊断检查：检查模型假设的满足情况，例如多重共线性、异方差性和自相关。
5.预测与解释：根据模型对未来数据进行预测，并解释各自变量对因变量的影响。

示例：
假设你想研究广告支出（( X1 )）、价格（( X2 )）和促销活动（( X_3 )）对销售额（( Y )）的综合影响。通过多元线性回归，你得到一个模型，例如：
[ Y = 4000 + 2.5X1 - 1.2X2 + 1500X_3 ]
这表明广告支出每增加一单位，销售额增加2.5单位；价格每增加一单位，销售额减少1.2单位；每增加一次促销活动，销售额增加1500单位。