使用 Statsmodels 进行统计建模与分析-CSDN博客

本文链接：https://blog.csdn.net/liaoqingjian/article/details/144223480

使用 `Statsmodels` 进行统计建模与分析

Statsmodels 是 Python 中一个功能强大的库，用于执行统计建模和计量经济学分析。它提供了一系列经典的统计模型和评估方法，涵盖线性回归、时间序列分析和广义线性模型等。

本文将带你深入了解 Statsmodels 的功能、应用场景以及如何用它解决实际问题。

为什么选择 `Statsmodels`

1. 丰富的统计建模功能

Statsmodels 提供了从简单到复杂的多种模型：

线性回归（OLS、GLS 等）
时间序列分析（ARIMA、SARIMAX 等）
生存分析
离散选择模型（Logit、Probit）
广义线性模型（GLM）

2. 易于解释的结果

与机器学习框架不同，Statsmodels 关注的是模型的可解释性。通过 Statsmodels，用户可以获得丰富的统计摘要，包括参数估计值、显著性检验和模型假设检验等。

安装与基础使用

首先，确保安装了 Statsmodels。在终端中运行以下命令：

pip install statsmodels

导入库并加载示例数据

Statsmodels 内置了一些示例数据集，可以直接用来练习。例如，我们可以加载经典的 mtcars 数据集：

import statsmodels.api as sm

# 加载示例数据
data = sm.datasets.get_rdataset("mtcars", "datasets").data
print(data.head())

线性回归分析

示例：预测汽车油耗

1. 准备数据

我们选择 mpg（每加仑行驶里程）作为因变量，用 wt（重量）和 hp（马力）作为自变量。

# 定义因变量和自变量
X = data[['wt', 'hp']]
y = data['mpg']

# 添加截距项
X = sm.add_constant(X)

2. 拟合线性回归模型

# 构建并拟合模型
model = sm.OLS(y, X).fit()

# 输出模型摘要
print(model.summary())

3. 模型摘要解读

Statsmodels 会返回一份详尽的模型摘要，常见字段包括：

R-squared：决定系数，衡量模型的拟合优度。
P>|t|：t 检验的 p 值，用于检验系数是否显著。
[0.025 0.975]：系数的 95% 置信区间。

示例输出：

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                    mpg   R-squared:                       0.826
Model:                            OLS   Adj. R-squared:                  0.814
...

我们可以看到该模型的 R-squared 值为 0.826，说明模型可以解释 82.6% 的数据方差。

时间序列分析

示例：ARIMA 模型

时间序列分析是 Statsmodels 的强项之一。我们以内置的 sunspots 数据集为例，分析太阳黑子数量的变化趋势。

1. 加载数据

# 加载时间序列数据
data = sm.datasets.sunspots.load_pandas().data
data.index = pd.to_datetime(data['YEAR'], format='%Y')
data = data['SUNACTIVITY']

2. 绘制时间序列

import matplotlib.pyplot as plt

data.plot(title="Sunspots Time Series", figsize=(10, 6))
plt.show()

3. 拟合 ARIMA 模型

from statsmodels.tsa.arima.model import ARIMA

# 拟合 ARIMA(2, 0, 2) 模型
model = ARIMA(data, order=(2, 0, 2))
result = model.fit()

# 输出模型摘要
print(result.summary())

4. 预测未来值

# 预测未来 10 年
forecast = result.forecast(steps=10)
print(forecast)

模型诊断与假设检验

1. 残差分析

模型诊断是统计建模的重要步骤。以下代码绘制残差图，以检查残差是否满足正态性和独立性假设。

# 绘制残差图
residuals = model.resid
sm.qqplot(residuals, line='s')
plt.show()

2. Durbin-Watson 检验

Durbin-Watson 检验用于检测自相关性。

from statsmodels.stats.stattools import durbin_watson

dw_stat = durbin_watson(model.resid)
print("Durbin-Watson statistic:", dw_stat)

总结

Statsmodels 是一个全面的统计建模工具，尤其适合那些关注模型解释性和统计测试的用户。无论是线性回归还是复杂的时间序列分析，Statsmodels 都提供了详尽的模型结果和诊断工具。

如果你希望在数据科学项目中获得更深入的统计洞察力，Statsmodels 将是一个不可或缺的工具。