深度学习实战案例:多元时序的空气质量预测(附完整代码)

在本文中,你将了解如何使用 Keras 深度学习库开发 用于多元时间序列预测的 LSTM 模型

技术提升

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

完整代码、数据、技术交流提升, 均可加入知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、添加微信号:pythoner666,备注:来自 CSDN + 空气质量
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:资料

1.空气污染预报

在本文中,我们将使用空气质量数据集。

这是一个数据集,报告了五年来美国驻中国北京大使馆每小时的天气和污染程度。

数据包括日期时间、称为PM2.5浓度的污染以及天气信息,包括露点、温度、压力、风向、风速和雨雪累计小时数。原始数据中完整的特征列表如下:

  1. No:行号
  2. year : 该行数据的年份
  3. month : 该行数据的月份
  4. day : 该行数据的日期
  5. hour:该行数据的小时数
  6. pm2.5 : PM2.5 浓度
  7. DEWP : 露点
  8. TEMP:温度
  9. PRES:压力
  10. cbwd : 组合风向
  11. Iws : 累计风速
  12. Is:累积的降雪时间
  13. Ir : 累计降雨时间

2.基础数据准备

下面是原始数据集的前几行。

No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
1,2010,1,1,0,NA,-21,-11,1021,NW,1.79,0,0
2,2010,1,1,1,NA,-21,-12,1020,NW,4.92,0,0
3,2010,1,1,2,NA,-21,-11,1019,NW,6.71,0,0
4,2010,1,1,3,NA,-21,-14,1019,NW,9.84,0,0
5,2010,1,1,4,NA,-20,-12,1018,NW,12.97,0,0

第一步是将日期时间信息合并到一个日期时间中,以便我们可以将其用作 Pandas 中的索引。

快速检查会显示前 24 小时内 pm2.5 的 NA 值。因此,我们需要删除第一行数据。数据集中后面还有一些分散的“NA”值;我们现在可以用 0 值标记它们。

下面的脚本加载原始数据集并将日期时间信息解析为 Pandas DataFrame 索引。删除“No”列,然后为每列指定更清晰的名称。最后,将 NA 值替换为“0”值,并删除前 24 小时。

删除“No”列,然后为每列指定更清晰的名称。最后,将 NA 值替换为“0”值,并删除前 24 小时。

from pandas import read_csv
from datetime import datetime
# load data
def parse(x):
	return datetime.strptime(x, '%Y %m %d %H')
dataset = read_csv('raw.csv',  parse_dates = [['year', 'month', 'day', 'hour']], index_col=0, date_parser=parse)
dataset.drop('No', axis=1, inplace=True)
# manually specify column names
dataset.columns = ['pollution', 'dew', 'temp', 'press', 'wnd_dir', 'wnd_spd', 'snow', 'rain']
dataset.index.name = 'date'
# mark all NA values with 0
dataset['pollution'].fillna(0, inplace=True)
# drop the first 24 hours
dataset = dataset[24:]
# summarize first 5 rows
print(dataset.head(5))
# save to file
dataset.to_csv('pollution.csv')

运行该示例会打印转换后数据集的前 5 行,并将数据集保存到“ pollution.csv ”。

                     pollution  dew  temp   press wnd_dir  wnd_spd  snow  rain
date
2010-01-02 00:00:00      129.0  -16  -4.0  1020.0      SE     1.79     0     0
2010-01-02 01:00:00      148.0  -15  -4.0  1020.0      SE     2.68     0     0
2010-01-02 02:00:00      159.0  -11  -5.0  1021.0      SE     3.57     0     0
2010-01-02 03:00:00      181.0   -7  -5.0  1022.0      SE     5.36     1     0
2010-01-02 04:00:00      138.0   -7  -5.0  1022.0      SE     6.25     2     0

现在我们有了易于使用的数据,我们可以快速创建每个系列的图表并查看我们有什么。
下面的代码加载新的“ pollution.csv ”文件并将每个系列绘制为单独的子图,风速方向除外,它是分类的。

from pandas import read_csv
from matplotlib import pyplot
# load dataset
dataset = read_csv('pollution.csv', header=0, index_col=0)
values = dataset.values
# specify columns to plot
groups = [0, 1, 2, 3, 5, 6, 7]
i = 1
# plot each column
pyplot.figure()
for group in groups:
	pyplot.subplot(len(groups), 1, i)
	pyplot.plot(values[:, group])
	pyplot.title(dataset.columns[group], y=0.5, loc='right')
	i += 1
pyplot.show()

运行该示例会创建一个包含 7 个子图的图,显示每个变量 5 年的数据。

3.多元LSTM预测模型

LSTM 数据准备

第一步是为 LSTM 准备污染数据集。这涉及将数据集构建为监督学习问题并对输入变量进行归一化。

我们将监督学习问题定义为在给定先前时间步长的污染测量和天气条件的情况下预测当前时间 (t) 的污染。

首先,加载“ _pollution.csv ”数据集。_风向特征是标签编码的(整数编码)。如果你有兴趣探索它,将来可能会进一步进行单热编码。

接下来,对所有特征进行归一化,然后将数据集转化为监督学习问题。然后删除要预测的小时 (t) 的天气变量。

# prepare data for lstm
from pandas import read_csv
from pandas import DataFrame
from pandas import concat
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler

# convert series to supervised learning
def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):
	n_vars = 1 if type(data) is list else data.shape[1]
	df = DataFrame(data)
	cols, names = list(), list()
	# input sequence (t-n, ... t-1)
	for i in range(n_in, 0, -1):
		cols.append(df.shift(i))
		names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
	# forecast sequence (t, t+1, ... t+n)
	for i in range(0, n_out):
		cols.append(df.shift(-i))
		if i == 0:
			names += [('var%d(t)' % (j+1)) for j in range(n_vars)]
		else:
			names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
	# put it all together
	agg = concat(cols, axis=1)
	agg.columns = names
	# drop rows with NaN values
	if dropnan:
		agg.dropna(inplace=True)
	return agg

# load dataset
dataset = read_csv('pollution.csv', header=0, index_col=0)
values = dataset.values
reframed = series_to_supervised(scaled, 1, 1)
# drop columns we don't want to predict
reframed.drop(reframed.columns[[9,10,11,12,13,14,15]], axis=1, inplace=True)
print(reframed.head())

运行该示例会打印转换数据集的前 5 行。我们可以看到 8 个输入变量(输入序列)和 1 个输出变量(当前小时的污染水平)。

   var1(t-1)  var2(t-1)  var3(t-1)  var4(t-1)  var5(t-1)  var6(t-1)  \
1   0.129779   0.352941   0.245902   0.527273   0.666667   0.002290
2   0.148893   0.367647   0.245902   0.527273   0.666667   0.003811
3   0.159960   0.426471   0.229508   0.545454   0.666667   0.005332
4   0.182093   0.485294   0.229508   0.563637   0.666667   0.008391
5   0.138833   0.485294   0.229508   0.563637   0.666667   0.009912
 
   var7(t-1)  var8(t-1)   var1(t)
1   0.000000        0.0  0.148893
2   0.000000        0.0  0.159960
3   0.000000        0.0  0.182093
4   0.037037        0.0  0.138833
5   0.074074        0.0  0.109658

这种数据准备很简单,我们可以探索更多。你可以考虑的一些想法包括:

  • 单热编码风向。
  • 通过差分和季节性调整使所有系列静止。
  • 提供超过 1 小时的输入时间步长。

考虑到在学习序列预测问题时 LSTM 使用时间反向传播,最后一点可能是最重要的。

定义和拟合模型

在本节中,我们将在多元输入数据上拟合 LSTM。

首先,我们必须将准备好的数据集拆分为训练集和测试集。为了加快本次演示的模型训练,我们将只在第一年的数据上拟合模型,然后在剩余 4 年的数据上对其进行评估。如果你有时间,可以考虑探索这个测试工具的倒置版本。

下面的示例将数据集拆分为训练集和测试集,然后将训练集和测试集拆分为输入和输出变量。最后,输入 (X) 被重塑为 LSTM 期望的 3D 格式,即 [samples, timesteps, features]。

# split into train and test sets
values = reframed.values
n_train_hours = 365 * 24
train = values[:n_train_hours, :]
test = values[n_train_hours:, :]
# split into input and outputs
train_X, train_y = train[:, :-1], train[:, -1]
test_X, test_y = test[:, :-1], test[:, -1]
# reshape input to be 3D [samples, timesteps, features]
train_X = train_X.reshape((train_X.shape[0], 1, train_X.shape[1]))
test_X = test_X.reshape((test_X.shape[0], 1, test_X.shape[1]))
print(train_X.shape, train_y.shape, test_X.shape, test_y.shape)

运行此示例打印训练集和测试集,其中约有 9K 小时的训练数据和约 35K 小时的测试数据。

(8760, 1, 8) (8760,) (35039, 1, 8) (35039,)

现在我们可以定义和拟合我们的 LSTM 模型。

我们将定义 LSTM 在第一个隐藏层有 50 个神经元,在输出层有 1 个神经元用于预测污染。输入形状将是具有 8 个特征的 1 个时间步长。

# design network
model = Sequential()
model.add(LSTM(50, input_shape=(train_X.shape[1], train_X.shape[2])))
model.add(Dense(1))
model.compile(loss='mae', optimizer='adam')

评估模型

模型拟合后,我们可以对整个测试数据集进行预测。

我们将预测与测试数据集结合起来并反转缩放比例。我们还使用预期的污染数量反转测试数据集的缩放比例。

有了原始规模的预测值和实际值,我们就可以计算模型的错误分数。在这种情况下,我们计算均方根误差 (RMSE),它以与变量本身相同的单位给出误差。

# make a prediction
yhat = model.predict(test_X)
test_X = test_X.reshape((test_X.shape[0], test_X.shape[2]))
# invert scaling for forecast
inv_yhat = concatenate((yhat, test_X[:, 1:]), axis=1)
inv_yhat = scaler.inverse_transform(inv_yhat)
inv_yhat = inv_yhat[:,0]
# invert scaling for actual
test_y = test_y.reshape((len(test_y), 1))
inv_y = concatenate((test_y, test_X[:, 1:]), axis=1)
inv_y = scaler.inverse_transform(inv_y)
inv_y = inv_y[:,0]
# calculate RMSE
rmse = sqrt(mean_squared_error(inv_y, inv_yhat))
print('Test RMSE: %.3f' % rmse)

示例

运行该示例首先创建一个图表,显示训练期间的训练和测试损失。

有趣的是,我们可以看到测试损失低于训练损失。该模型可能过度拟合训练数据。在训练期间测量和绘制 RMSE 可能会更清楚地说明这一点。
训练和测试损失在每个训练时期结束时打印。在运行结束时,将打印模型在测试数据集上的最终 RMSE。

我们可以看到该模型实现了 26.496 的可观 RMSE,低于持久性模型的 30 RMSE。

Epoch 46/50
0s - loss: 0.0143 - val_loss: 0.0133
Epoch 47/50
0s - loss: 0.0143 - val_loss: 0.0133
Epoch 48/50
0s - loss: 0.0144 - val_loss: 0.0133
Epoch 49/50
0s - loss: 0.0143 - val_loss: 0.0133
Epoch 50/50
0s - loss: 0.0144 - val_loss: 0.0133
Test RMSE: 26.496

4.训练多个滞后时间步示例

首先,你必须在调用 series_to_supervised() 时适当地构建问题。我们将使用 3 小时的数据作为输入。

# specify the number of lag hours
n_hours = 3
n_features = 8
# frame as supervised learning
reframed = series_to_supervised(scaled, n_hours, 1)

接下来,我们需要更加小心地指定输入和输出的列。
我们的框架数据集中有 3 * 8 + 8 列。我们将采用 3 * 8 或 24 列作为过去 3 小时内所有特征的 obs 的输入。我们将在接下来的时间仅将污染变量作为输出,如下所示:

# split into input and outputs
n_obs = n_hours * n_features
train_X, train_y = train[:, :n_obs], train[:, -n_features]
test_X, test_y = test[:, :n_obs], test[:, -n_features]
print(train_X.shape, len(train_X), train_y.shape)

接下来,我们可以正确地重塑我们的输入数据以反映时间步长和特征。

# reshape input to be 3D [samples, timesteps, features]
train_X = train_X.reshape((train_X.shape[0], n_hours, n_features))
test_X = test_X.reshape((test_X.shape[0], n_hours, n_features))

拟合模型是一样的。

唯一的其他小变化是如何评估模型。具体来说,在我们如何重构具有 8 列的行以适合反转缩放操作以使 y 和 yhat 回到原始比例,以便我们可以计算 RMSE。

更改的要点是我们将 y 或 yhat 列与测试数据集的最后 7 个特征连接起来,以便反转缩放,如下所示:

# invert scaling for forecast
inv_yhat = concatenate((yhat, test_X[:, -7:]), axis=1)
inv_yhat = scaler.inverse_transform(inv_yhat)
inv_yhat = inv_yhat[:,0]
# invert scaling for actual
test_y = test_y.reshape((len(test_y), 1))
inv_y = concatenate((test_y, test_X[:, -7:]), axis=1)
inv_y = scaler.inverse_transform(inv_y)
inv_y = inv_y[:,0]

该模型在一两分钟内就和以前一样适合。

Epoch 45/50
1s - loss: 0.0143 - val_loss: 0.0154
Epoch 46/50
1s - loss: 0.0143 - val_loss: 0.0148
Epoch 47/50
1s - loss: 0.0143 - val_loss: 0.0152
Epoch 48/50
1s - loss: 0.0143 - val_loss: 0.0151
Epoch 49/50
1s - loss: 0.0143 - val_loss: 0.0152
Epoch 50/50
1s - loss: 0.0144 - val_loss: 0.0149

绘制了各个时期的训练和测试损失图。

最后,测试 RMSE 被打印出来,并没有真正显示出任何技能优势,至少在这个问题上是这样。

Test RMSE: 27.177

我要补充一点,LSTM似乎不适合解决自回归类型的问题,你最好探索具有大窗口的 MLP。

我希望这个例子能帮助你进行你自己的时间序列预测实验。

  • 3
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GRU(Gated Recurrent Unit)是一种循环神经网络(RNN)的变体,常用于序列数据的建模和预测。要实现空气质量预测,你可以按照以下步骤进行: 1. 数据准备:收集历史空气质量数据,包括相关的气象数据、污染物浓度等。将数据进行预处理,如去除异常值、缺失值处理等。 2. 特征工程:根据问题的需求,选择合适的特征进行提取。例如,可以使用过去几天的污染物浓度、气象因素(如温度、湿度、风速等)作为输入特征。 3. 数据划分:将数据集划分为训练集和测试集。通常可以使用时间序列的方式,将最近一段时间作为测试集,其余作为训练集。 4. 模型构建:使用GRU模型来建模空气质量预测问题。GRU具有门控机制,可以有效地捕捉时间序列数据中的长期依赖关系。 5. 模型训练:将准备好的训练集输入到GRU模型中进行训练。可以使用适当的损失函数(如均方误差)和优化算法(如Adam)来进行模型优化。 6. 模型评估:使用测试集对训练好的模型进行评估,计算预测结果与真实值之间的误差指标,如均方根误差(RMSE)、平均绝对误差(MAE)等。 7. 预测应用:使用训练好的模型对未来的空气质量进行预测。根据实际需求,可以进行单步预测或多步预测。 需要注意的是,GRU模型的性能可能会受到数据质量、特征选择、模型参数设置等因素的影响。因此,在实际应用中,需要不断优化和调整模型以获得更好的预测结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值