开学后第三次周报

白小李

于 2022-10-09 17:51:35 发布

阅读量869

点赞数 1

本文链接：https://blog.csdn.net/gldzkjdxwzs/article/details/127230930

版权

摘要

本周是对LSTM的相关文献展开了阅读，LSTM在大气预测等方向有着许多的运用，并且有着其它模型所不具有的一些优点，可以在考虑数据的时序性的同时，对参数的选择不依赖主观经验，以及有效防止梯度消失。除此之外对于应急系统项目的部署中遇到的一些问题，进行了学习和解决，最后对K近邻复习了下。

文献阅读

文章：数据预处理对 LSTM 网络大气污染预测精度分析

作者：杜英魁、张乙芳、原忠虎、关屏、彭跃

摘要：

要大气污染物浓度数据具有时序性和非线性的特点，针对时间序列数据中的异常值和缺失值问题，进行异常值和缺失值预处理对长短时记忆神经网络（LSTM）预测精度的影响分析。利用箱线图法判别数据序列中的异常值，以均值替换法、回归插补法和多重插补法进行缺失值的预处理，分别利用原始数据序列和不同预处理方法得到的数据序列，对多变量输入LSTM神经网络的大气污染物预测精度进行对比分析。实验结果表明，三种预处理方法均可明显改善LSTM模型的预测精度，多重插补法精度最高。

论文目的：研究大气污染浓度的变化，掌握其变化规律对大气污染的治理、改善大气污染是十分有必要的。

LSTM模型在针对大气污染物浓度的预测问题相较于其它模型的优点：

较多元回归模型和GM预测模型，考虑了数据的时序性和非线性的特点。
较模糊时序和支持向量机，对于参数的选择不依赖主观经验。
较RNN模型，可以防止出现梯度消失等问题。

主要工作：

通过箱线图法识别出各种污染物浓度数据中的异常值，并采用异常值视为缺失值的处理方法；使用均值替换法、回归插补法以及多重插补法对数据进行数据预处理，比较三种缺失值处理方法的效果；建立 LSTM 预测模型，分别使用三种预处理后的数据进行训练与检验，比较LSTM模型的精度。

箱线图：提供了识别异常值的一个标准：异常值被定义为小于Q1-1.5IQR 或大于 Q3+1.5IQR 的值。

处理数据：

1.均值替换法保留了与缺失变量无关的其他变量的信息，最大程度上保证了数据真实性与完整性的特点（计算出各种气体的均值）。

均值替补法前后数据频数分布图：

2.回归插补法：通过污染物变量与时间变量建立回归模型，利用回归方程的预测值对缺失数据进行回归插补。

回归插补法前后数据频数分布图：

3.多重插补法：对原始数据进行多重插补，利用每一个插补值对缺失数据插补得到相应个数的完整样本。

多重插补法前后数据频数分布图：

LSTM神经网络简介

长短期记忆网络（LSTM）是循环神经网络（RNN）的变形结构，在隐藏层各神经单元中增加单元状态量，使时间序列上的记忆信息可控；在隐藏层各单元传递时通过遗忘门、输入门、输出门控制历史信息与当前信息的记忆和遗忘程度。

输入数据：PM2.5、PM10、SO2、NO2、O3共五个特征变量。神经元个数为5。

隐藏层神经元个数结合经验公式和不断进行试验的方式来确定。

其中n为输入层的神经元个数，n1为输出层神经元个数，a是（1，10）范围内的任意整数，M是隐藏层的神经元个数。前者可算出M的取值范围（4，13），后者可得M值为3，因此M的取范围为3，所以隐含层的神经元个数范围为（3，13）之间的整数。在这范围内采用试凑法，对11种不同隐藏层神经元个数进行对比训练，利用 MAE和RMSE作为模型精度评价指标。找出最合适的隐藏层神经元个数为3。

MAE 为平方绝对误差，n 为数据总个数，yi 为数据的真实值，y~i 为数据的预测值。

RMSE 为均方根误差，n为数据总个数，yi 为数据的真实值，y~i 为数据的预测值。

利用前一天五种污染物浓度值作为模型输入，后一天五种污染物浓度值作为模型输出，进行 LSTM 模型仿真实验。

缺失值处理方法的预测精度评价指标MAE对比：

缺失值处理方法的预测精度评价指标RMSE对比：

由比较结果得知模型的隐藏层神经元个数为3时，模型的评价指标最好，并且不同缺失值的处理方法的评价指标也不同。在评价标准MAE中，缺失值处理方法排序为：多重插补>回归插补>均值替换>原始数据。而在RMSE中，缺失值处理方法排序为：多重插补>回归插补>均值替换>原始数据。

多重插补法的RMSE和MAE的值均为最小，模型的预测精度，多重插补法的精准度评价指标MAE提高了22%，RMSE提高了13%，所以应采取多重插补法进行缺失值处理。

结论：

论文建立的三层 LSTM 时间序列模型可以精确地预测五种污染物浓度，实验结果表明通过数据和缺失值预处理，可以有效提高预测精度，其中多重插补法的精度提升最高。对于 LSTM 模型的隐藏层神经元个数设置，采用的是经验公式法和试凑法的结合，因此隐藏层神经元的最优个数的选取上仍然有进一步优化的空间。

工程部署

ASP.Net.MVC：由地址栏访问控制器，通过Models过滤、检验，之后在Views中显示出来

现记录几个在部署工程项目所遇到的几个问题。

CS0161: 并非所有的代码路径都有返回值

方法声明中有返回类型定义,而方法中有一种执行方式没有返回值。即要为另一种执行方式提供一个返回值，如return 0，return null等。在if外增加一个返回值。
CS0136: 无法在此范围中声明名为“xxx"的局部变量或参数，因为该名称在封闭局部范围中用于定义局部变量或参数。

前面函数形参中有"xxx"，后面的"xxx"和前面函数形参里的"xxx"相同而冲突了，只要把"xxx"改成其他的字母就行了
CS8370: 功能"本地函数特性"在C#7.3中不可用。请使用9.0或更高的语言版本。

打开项目所在目录并打开项目文件。

在 PropertyGroup 节点下添加 LangVersion语句。

<LangVersion>9.0</LangVersion>