统计回归模型python代码

最新推荐文章于 2024-09-25 15:58:58 发布

defisym

最新推荐文章于 2024-09-25 15:58:58 发布

阅读量20

点赞数

文章标签：回归 python 数据挖掘人工智能机器学习

线性回归模型是一种统计方法，用于建模和分析一个或多个自变量（X）与因变量（Y）之间的线性关系。简单来说，线性回归尝试找到一条最佳拟合线（在多维空间中可能是超平面），通过这条线可以预测因变量Y的值，基于给定的自变量X的值。

在线性回归模型中，因变量Y被假设为自变量X的线性组合，加上一个随机误差项ε，即：

Y = β 0 + β 1 X 1 + β 2 X 2 +...+ βn Xn + ε

其中：

Y 是因变量，我们想要预测或解释的变量。
X₁, X₂, ..., Xₙ 是自变量，我们认为它们会影响Y的变量。
β₀ 是截距项，表示当所有自变量都为0时，Y的期望值。
β₁, β₂, ..., βₙ 是斜率或回归系数，表示每个自变量对Y的影响程度。
ε 是误差项，表示模型中未考虑的其他因素对Y的影响，通常假设它服从正态分布。

线性回归模型的目标是找到最佳的β系数（包括截距β₀和斜率β₁, β₂, ..., βₙ），使得预测值与实际值之间的差异（即残差）最小化。这通常通过最小二乘法来实现，即最小化残差平方和（Residual Sum of Squares, RSS）。

线性回归模型有许多应用，包括但不限于：

预测分析：基于历史数据预测未来的趋势或结果。
因果推断：分析自变量和因变量之间的因果关系。
特征选择：在多个自变量中识别出对因变量影响最大的因素。
数据可视化：通过拟合线直观地展示自变量和因变量之间的关系。

需要注意的是，虽然线性回归模型假设了自变量和因变量之间的线性关系，但在实际应用中，这种关系可能并不总是完全线性的。因此，在使用线性回归模型之前，通常需要对数据进行适当的预处理和检验，以确保模型的适用性和准确性。

在Python中，可以使用多种库来实现统计回归模型，比如scikit-learn、statsmodels和numpy/scipy等。这里，分别使用scikit-learn和statsmodels来展示线性回归模型的简单示例。

使用`scikit-learn`进行线性回归

scikit-learn是Python中非常流行的机器学习库，它提供了丰富的算法和工具来进行数据挖掘和数据分析。

 # 导入必要的库  
 
 import numpy as np  
 
 from sklearn.model_selection import train_test_split  
 
 from sklearn.linear_model import LinearRegression  
 
 import matplotlib.pyplot as plt  
 
   
 
 # 示例数据  
 
 X = np.array([[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]])  # 自变量，需要是二维数组形式  
 
 y = np.array([2, 4, 5, 4, 5, 7, 8, 11, 8, 12])  # 因变量  
 
   
 
 # 划分训练集和测试集（这里仅为示例，实际使用时应该留一部分数据作为测试集）  
 
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)  
 
   
 
 # 创建线性回归模型  
 
 model = LinearRegression()  
 
   
 
 # 训练模型  
 
 model.fit(X_train, y_train)  
 
   
 
 # 预测  
 
 y_pred = model.predict(X_test)  
 
   
 
 # 打印模型的斜率（权重）和截距  
 
 print(f'斜率(权重): {model.coef_}')  
 
 print(f'截距: {model.intercept_}')  
 
   
 
 # 可视化结果（假设所有点都用于可视化）  
 
 plt.scatter(X, y, color='black', label='实际数据')  
 
 plt.plot(X, model.predict(X), color='blue', linewidth=3, label='拟合线')  
 
 plt.xlabel('X')  
 
 plt.ylabel('Y')  
 
 plt.title('线性回归')  
 
 plt.legend()  
 
 plt.show()

使用`statsmodels`进行线性回归

statsmodels是另一个Python库，专注于统计模型的估计和推断，它提供了更多的统计测试功能。

 import numpy as np  
 
 import statsmodels.api as sm  
 
 import statsmodels.formula.api as smf  
 
 import matplotlib.pyplot as plt  
 
   
 
 # 示例数据  
 
 X = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])  
 
 y = np.array([2, 4, 5, 4, 5, 7, 8, 11, 8, 12])  
 
   
 
 # 添加常数项以拟合截距  
 
 X = sm.add_constant(X)  
 
   
 
 # 创建模型  
 
 model = sm.OLS(y, X).fit()  
 
   
 
 # 打印模型的摘要信息  
 
 print(model.summary())  
 
   
 
 # 预测（可选）  
 
 X_new = sm.add_constant(np.array([1, 11]))  # 例如，预测X=11时的Y值  
 
 predictions = model.predict(X_new)  
 
 print(f'预测值: {predictions}')  
 
   
 
 # 可视化结果（这里仅绘制拟合线，实际点略去以保持简洁）  
 
 X_plot = np.linspace(X[:, 1].min(), X[:, 1].max(), 100)  
 
 X_plot = sm.add_constant(X_plot.reshape(-1, 1))  
 
 plt.plot(X_plot[:, 1], model.predict(X_plot), 'r')  
 
 plt.xlabel('X')  
 
 plt.ylabel('Y')  
 
 plt.title('线性回归')  
 
 plt.show()

统计回归模型python代码_线性回归

原创作者: u_15266301 转载于: https://blog.51cto.com/u_15266301/11515639

defisym

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

统计回归模型python代码

使用scikit-learn进行线性回归

使用statsmodels进行线性回归

使用`scikit-learn`进行线性回归

使用`statsmodels`进行线性回归