北京大气污染PM2.5预测(LSTM)

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_excel('./北京空气_2010.1.1-2014.12.31.xlsx')

在这里插入图片描述
数据处理:把PM2.5 为null的数据都用相邻的数据填充,我们取2010年1月2日以后的数据。

data = data.iloc[24:].fillna(method = 'ffill')

在这里插入图片描述
把年,月,日 和小时 合并为一列。

import datetime
data['时间'] = data.apply(lambda x: datetime.datetime(year=x['年'],month =x['月'],day = x['日'],hour = x['小时']),axis = 1)

在这里插入图片描述
去掉 年,月,日 和小时,并且把 时间列 作为索引index

data.drop(columns=['No','年','月','日','小时'],inplace = True)
data = data.set_index('时间')

在这里插入图片描述
One-hot 编码 风向序列

data = data.join(pd.get_dummies(data.风向))
del data['风向']

在这里插入图片描述
查看2012年到2014年的

data['pm2.5'][-365*24:].plot()
data['pm2.5'][-365*24*2:-365*24].plot()
data['pm2.5'][-365*24*3:-365*24*2].plot()

在这里插入图片描述
用前6天的数据预测第7天的大气PM2.5

sequence_length = 6*24
delay = 24
data_ = []
for i in range(len(data) - sequence_length - delay):
    data_.append(data.iloc[i: i + sequence_length + delay])
data_ = np.array([df.values for df in data_])
np.random.shuffle(data_)
x = data_[:, :-delay, :]
y = data_[:, -1, 0]

把数据的80%分成训练集合,20%分为测试集合。

split_boundary = int(data_.shape[0] * 0.8)
train_x = x[: split_boundary]
test_x = x[split_boundary:]

train_y = y[: split_boundary]
test_y = y[split_boundary:]

对数据进行归一化操作

mean = train_x.mean(axis=0) #均值
std = train_x.std(axis=0) #标准差
train_x = (train_x - mean)/std
test_x = (test_x - mean)/std

定义模型

model_m = keras.Sequential()
model_m.add(layers.LSTM(32, input_shape=(train_x.shape[1:]), return_sequences=True))
model_m.add(layers.LSTM(32, return_sequences=True))
model_m.add(layers.LSTM(32))
model_m.add(layers.Dense(1))

model_m.compile(optimizer=keras.optimizers.Adam(), loss='mae')
learning_rate_reduction = keras.callbacks.ReduceLROnPlateau(monitor='val_loss', patience=3, factor=0.5, min_lr=0.00001)

训练模型

history = model_m.fit(train_x, train_y,
                    batch_size = 128,
                    epochs=200,
                    validation_data=(test_x, test_y),
                    callbacks=[learning_rate_reduction])

保存模型

model_m.save("MULTI_LAYERS_LSTM.h5")

测试模型准确度

data_test = data[-24*6:]
data_test = (data_test - mean)/std
data_test = data_test.to_numpy()
data_test = np.expand_dims(data_test,0)
pm = model_m.predict(data_test)

在这里插入图片描述
根据历史数据可知道 北京在2015年1月1日 24时,也就是2015年1月2日 0时的PM2.5 值为 51,我们预测的值为54.329.在这里插入图片描述

https://www.aqistudy.cn/historydata/daydata.php?city=%E5%8C%97%E4%BA%AC&month=2015-01
部分数据集
在这里插入图片描述
在这里插入图片描述

  • 13
    点赞
  • 130
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
### 回答1: LSTM是一种长短期记忆神经网络,可以用于时间序列预测PM2.5是衡量空气污染水平的指标之一。LSTM预测PM2.5可以通过以下步骤实现: 1.数据准备:收集历史PM2.5数据和相关气象条件,如温度,湿度等,选用适当的特征进行预测。同时,需要对数据进行清洗和归一化。 2.建立LSTM模型:基于历史数据建立LSTM模型,通常采用类似于时序模型的方法,以时间步为单位输入数据,设置合适的网络层数和节点数,进行训练和验证。 3.预测和评估:使用训练好的模型对新的PM2.5数据进行预测,并与实际数据进行比对,计算预测误差和准确率等评估指标。 LSTM预测PM2.5具有一定的局限性,如模型泛化能力较差,对序列中的长期依赖性有一定限制。因此,需要结合实际应用情况和数据特点,选择适当的算法进行优化和改进,以提高预测精度和可靠性。 ### 回答2: 随着城市化的加速,空气污染愈发严重,其中PM2.5成为危害人体健康的重要污染物。为了更好地预测和控制PM2.5的浓度,人工智能技术被广泛应用。其中,LSTM(Long Short-Term Memory)是一种能够对序列数据进行处理的循环神经网络模型,被广泛应用于时间序列预测领域。下面将从数据预处理、模型构建和实验结果三个方面简要讲解LSTM预测PM2.5的方法。 首先,数据预处理阶段非常重要。PM2.5数据通常具有周期性和随机性,因此需要通过数据平滑和差分等方法来处理数据。同时,还需要对数据进行归一化处理,将其缩放到0到1之间。 其次,模型构建阶段是实现LSTM预测PM2.5的关键步骤。在构建模型时,需要确定LSTM模型中神经网络的参数,并进行特征选择,确定哪些特征对PM2.5预测更为重要。同时,可以通过加入额外的特征,例如气象数据和人口密度等,来进一步提高预测精度。 最后,进行实验并对预测结果进行评估。实验中需要将数据集分为训练集、验证集和测试集,并对模型进行训练、超参数调整和模型评估。评估方法可以采用均方根误差(RMSE)或平均绝对误差(MAE)等统计方法来衡量预测结果的准确性。 总之,LSTM预测PM2.5是一项较为复杂的任务,需要进行细致的数据预处理、特征选择和模型构建。在未来,相信这一方法将在城市空气污染治理中发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值