时间序列预测Python机器学习应用

Python机器学习实现时间序列预测

最新推荐文章于 2025-10-19 09:44:10 发布

原创最新推荐文章于 2025-10-19 09:44:10 发布 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #开发语言

深度学习专栏收录该内容

87 篇文章

订阅专栏

时间序列数据的基本概念与预处理

1. 时间序列数据的定义与特点

时间序列数据是按照时间顺序排列的一系列数据点，通常具有以下特点：

时间依赖性：当前值受过去值的影响。
趋势性：数据可能呈现长期上升或下降的趋势。
季节性：数据在固定周期内重复出现的模式。
噪声：随机波动，无明显规律。

2. 数据预处理步骤

2.1 数据清洗

处理缺失值、异常值和重复数据。例如，使用插值法填补缺失值：

import pandas as pd

# 示例数据
data = {'date': pd.date_range(start='2023-01-01', periods=10, freq='D'),
        'value': [1, 2, None, 4, 5, None, 7, 8, 9, 10]}
df = pd.DataFrame(data)

# 线性插值填补缺失值
df['value'] = df['value'].interpolate()
print(df)

2.2 数据转换

将时间序列转换为适合模型输入的格式，如滑动窗口、差分等。例如，创建滞后特征：

# 创建滞后特征
df['lag1'] = df['value'].shift(1)
df['lag2'] = df['value'].shift(2)
print(df)

2.3 标准化与归一化

对数据进行标准化或归一化，以提高模型训练效果。例如，使用StandardScaler进行标准化：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['value', 'lag1', 'lag2']] = scaler.fit_transform(df[['value', 'lag1', 'lag2']])
print(df)

经典时间序列预测方法

1. 自回归模型（AR）

自回归模型假设当前值可以表示为过去值的线性组合。适用于平稳时间序列。

from statsmodels.tsa.ar_model import AutoReg

# 拟合AR模型
model = AutoReg(df['value'].dropna(), lags=2)
model_fit = model.fit()

# 预测
forecast = model_fit.predict(start=len(df), end=len(df)+2)
print(forecast)

2. 移动平均模型（MA）

移动平均模型使用过去误差的线性组合来预测当前值。适用于平稳时间序列。

from statsmodels.tsa.arima_process import ArmaProcess

# 定义MA模型参数
ma_params = [1, 0.5]  # 例子参数
ar_params = [1]

# 创建MA过程
ma_process = ArmaProcess(np.r_[ar_params, ma_params])

# 生成模拟数据
ma_data = ma_process.generate_sample(nsample=100)
print(ma_data)

3. ARIMA模型

ARIMA结合了AR和MA的优点，适用于非平稳但可差分平稳的时间序列。

from statsmodels.tsa.arima.model import ARIMA

# 拟合ARIMA模型
model = ARIMA(df['value'].dropna(), order=(2,1,2))
model_fit = model.fit()

# 预测
forecast = model_fit.forecast(steps=5)
print(forecast)

现代机器学习方法在时间序列预测中的应用

1. 支持向量回归（SVR）

支持向量回归通过寻找最优超平面来进行回归，适用于非线性时间序列预测。

from sklearn.svm import SVR
from sklearn.model_selection import train_test_split

# 准备数据
X = df[['lag1', 'lag2']]
y = df['value']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

# 训练SVR模型
svr = SVR(kernel='rbf')
svr.fit(X_train, y_train)

# 预测
y_pred = svr.predict(X_test)
print(y_pred)

2. 随机森林回归

随机森林通过集成多棵决策树来提高预测准确性，适用于复杂的非线性关系。

from sklearn.ensemble import RandomForestRegressor

# 训练随机森林模型
rf = RandomForestRegressor(n_estimators=100)
rf.fit(X_train, y_train)

# 预测
y_pred_rf = rf.predict(X_test)
print(y_pred_rf)

3. 长短期记忆网络（LSTM）

LSTM是一种特殊的循环神经网络，擅长处理时间序列数据中的长期依赖关系。

import numpy as np
from keras.models import Sequential
from keras.layers import LSTM, Dense

# 准备数据
def create_dataset(df, look_back=2):
    X, y = [], []
    for i in range(len(df)-look_back-1):
        X.append(df[['lag1', 'lag2']].iloc[i:i+look_back].values)
        y.append(df['value'].iloc[i+look_back])
    return np.array(X), np.array(y)

look_back = 2
X, y = create_dataset(df.dropna(), look_back)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

# 构建LSTM模型
model = Sequential()
model.add(LSTM(50, input_shape=(look_back, X.shape[2])))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer='adam')

# 训练模型
model.fit(X_train, y_train, epochs=50, batch_size=1, verbose=0)

# 预测
y_pred_lstm = model.predict(X_test)
print(y_pred_lstm)

特征工程与模型评估

1. 特征选择与提取

选择合适的特征对于提高模型性能至关重要。常见的时间序列特征包括：

滞后特征：过去时间步的值。
滚动统计特征：如移动平均、滚动标准差等。
时间相关特征：如月份、季度、星期几等。

# 添加滚动统计特征
df['rolling_mean'] = df['value'].rolling(window=3).mean()
df['rolling_std'] = df['value'].rolling(window=3).std()
print(df)

2. 模型评估指标

常用的评估指标包括均方误差（MSE）、均绝对误差（MAE）和决定系数（R²）。

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# 计算评估指标
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse}, MAE: {mae}, R²: {r2}')

3. 交叉验证与超参数调优

使用交叉验证可以更稳健地评估模型性能，并通过网格搜索或随机搜索优化模型超参数。

from sklearn.model_selection import TimeSeriesSplit, GridSearchCV

# 时间序列交叉验证
tscv = TimeSeriesSplit(n_splits=5)

# 定义参数网格
param_grid = {'n_estimators': [50, 100, 200]}

# 网格搜索
grid_search = GridSearchCV(estimator=RandomForestRegressor(), param_grid=param_grid, cv=tscv, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# 最佳参数
print(grid_search.best_params_)

高级主题与实战技巧

1. 处理季节性与趋势

对于具有明显季节性和趋势的时间序列，可以使用季节性分解或差分方法进行处理。

from statsmodels.tsa.seasonal import seasonal_decompose

# 季节性分解
decomposition = seasonal_decompose(df['value'], model='additive', period=12)
trend = decomposition.trend
seasonal = decomposition.seasonal
residual = decomposition.resid

# 绘制分解结果
import matplotlib.pyplot as plt

plt.figure(figsize=(12,8))
plt.subplot(411)
plt.plot(df['value'], label='Original')
plt.legend(loc='upper left')
plt.subplot(412)
plt.plot(trend, label='Trend')
plt.legend(loc='upper left')
plt.subplot(413)
plt.plot(seasonal, label='Seasonality')
plt.legend(loc='upper left')
plt.subplot(414)
plt.plot(residual, label='Residual')
plt.legend(loc='upper left')
plt.tight_layout()
plt.show()

2. 多变量时间序列预测

在实际应用中，常常需要处理多个相关变量的时间序列数据。可以使用多变量模型如VAR或多输入LSTM。

from statsmodels.tsa.api import VAR

# 准备多变量数据
multivariate_data = df[['value', 'another_variable']].dropna()
model = VAR(multivariate_data)
model_fit = model.fit()

# 预测
forecast = model_fit.forecast(model_fit.y, steps=5)
print(forecast)

3. 实时预测与部署

在实际应用中，可能需要对实时数据进行预测，并将模型部署到生产环境中。可以使用Flask或FastAPI搭建简单的API服务。

from flask import Flask, request, jsonify
import pickle

app = Flask(__name__)

# 加载预训练模型
with open('model.pkl', 'rb') as f:
    model = pickle.load(f)

@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json(force=True)
    features = np.array(data['features']).reshape(1, -1)
    prediction = model.predict(features)
    return jsonify({'prediction': prediction[0]})

if __name__ == '__main__':
    app.run(debug=True)