《Deep Air: Forecasting Air Pollution in Beijing, China》笔记

Vikram Reddy, Pavan Yedavalli, Shrestha Mohanty, Udit Nakhat

项目网站

Deep Air | UC Berkeley School of Informationicon-default.png?t=M5H6https://www.ischool.berkeley.edu/projects/2017/deep-air

代码

http://github.com/vikmreddy/deep-airicon-default.png?t=M5H6http://github.com/vikmreddy/deep-air

目录

1. 摘要

2. 引言

3. 理论背景

4. 数据

4.1 数据描述

4.2 预处理和特征

​编辑4.3 数据分割

5. 方法

5.1 持续模型基准

5.1.1 非线性回归

5.1.2 LSTM序列到标量(Sequence to Scalar)

5.2 预测模型

5.2.1 LSTM序列到序列

6. 实验和结果

6.1 开发集结果

6.1.1 调试(tuning)支持向量回归SVR(Support Vector Regressor)序列到标量和LSTM序列到标量(sequence to scalar)

6.1.2 调试LSTM序列到序列模型(Sequence to Sequence)

 6.1.3 特征选取PCA

6.2 测试集结果

7. 结论

7.1 见解

7.2 未来工作

8. 附录

8.1 训练集探索

1. 摘要

使用LSTM循环神经网络预测北京未来空气质量。

2. 引言

环境科学中的确定性模型寻求从分子层面了解空气污染物行为,模拟传播扩散模式。计算机科学和统计学的线性回归有局限。支持向量回归主要预测当前时间的污染而不是将来的污染。

3. 理论背景

简单RNN和LSTM RNN对比如下两图。

 

4. 数据

4.1 数据描述

2010到2014UCI、2015-2017中科院、2015-2017美国NOAA。

4.2 预处理和特征

经过单位统一、清洗等,经过预处理的数据集总结如下图,目标变量是pm2.5,维度是8×68870。

4.3 数据分割

数据分为四个数据集:训练、开发,和两个不关联的测试集。

5. 方法

5.1 持续模型基准

两个持续模型作为基准。一个持续模型利用之前一个或多个时间步预测下个时间步的目标变量。这一基准背后隐藏的概念驱动(以及假设)是所预测时间步与它之前的数据区别不大。换言之,数据在短期内持续不变。为预测下一小时或几小时的污染,考虑将气象学和污染特征设定为一个特定的时间延迟值(time lag value)。例如,如果想要理解过去10个小时的气象和污染数据如何影响下个小时的污染水平,将时间延迟值取10,预测小时取1.模型取了多个时间延迟值和预测小时数,使用均方根误差(RMSE)衡量它们的表现。

5.1.1 非线性回归

径向基函数作为核心的支持向量回归(Support Vector Regressor with a radial basis function kernel)。因数据有某种循环模式,故该非线性方法可能捕捉到其中的一些关系。

5.1.2 LSTM序列到标量(Sequence to Scalar)

采用了不同时间步长,包括1、3、4、6、8、10、15、25步;还进行了不同网络配置实验,包括改变层数、层类型、每层节点数、损失函数、批大小(batch size)和迭代次数。

5.2 预测模型

预测未来数小时或数天空气污染的模型。

5.2.1 LSTM序列到序列

使用LSTM编码器解码器(LSTM Encoder and Decoder)结构。未来的时间步数为定值。同样使用了不同网络配置,包括层数、每层节点数和批大小。

根据Geman等的研究,改变隐藏节点数可能减少过拟合和增加模型生成。可能的首要原则是将隐藏的宽度设置为输入输出维度之和的三分之二[Stuart Geman, Elie Bienenstock, and Ren´e Doursat. “Neural Networks and the Bias/Variance Dilemma”. In: Neural Comput. 4.1 (Jan. 1992), pp. 1–58. ISSN: 0899-667.DOI:10.1162/neco.1992.4.1.1.URL: http://dx.doi.org/10.1162/neco.1992.4.1.1.]。

输入的维度为30,输出12,故隐藏层数为(2/3)*42=14.即用过去30小时的数据预测将来的12个小时。实验结果告诉我们隐藏层维度大小应小于输入维度而大于输出维度。

下图展示了文章深度LSTM架构。

文章同样使用了早期停止策略,如限制迭代次数等,以减少过拟合。 

6. 实验和结果

6.1 开发集结果

6.1.1 调试(tuning)支持向量回归SVR(Support Vector Regressor)序列到标量和LSTM序列到标量(sequence to scalar)

 由图5可以看出,LSTM模型在长时间跨度的预测表现由于其他非线性方法,如支持向量回归。

图6显示文章模型在批大小为80时表现最佳。 

6.1.2 调试LSTM序列到序列模型(Sequence to Sequence)

 均方根误差在隐藏维度为24时最小,刚好是输入输出维度和的三分之二。

批大小为24时,运行时间最短,接下来将以该大小运行测试集。

 6.1.3 特征选取PCA

表1展示了各个变量对结果的影响比例。

6.2 测试集结果

 

 使用了开发集中最优超参数的模型应用到测试集,表2、3、4评价了其均方根误差(RMSE)和R方(R-squared)。调试好的模型隐藏维度和批大小都为24,这只是巧合, 需要未来进一步研究这两个参数间的联系对模型性能的影响。

图9是支持向量回归序列到标量(SVR Sequence to Scalar)4个过去小时预测将来1小时,在2014测试集表现,从表2可知RMSE为44.03.

 图10是LSTM序列到标量,4个过去小时预测将来1小时,在2014测试集表现,从表2可知RMSE为24.09.

图11是LSTM序列到序列,过去30小时预测将来5小时,从表4知,RMSE为44.15.

 

 图12是LSTM序列到序列,30过往时间步预测将来10时间步,从表4知,RMSE为74.8,模型表现下降。

 最后,过往120小时预测将来120小时,RMSE为108.18.

7. 结论

7.1 见解

当未来的时间步在2到10小时之间是误差最小。

对于城市政策(如交通票价制定)、传感器部署进而节约用电成本等起到作用。

7.2 未来工作

预测更长期的未来。

8. 附录

8.1 训练集探索

图14展示的一些特征,具备循环的模式,故作者试图使用非线性的模型来拟合数据。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值