开学后第三次周报

目录

摘要

文献阅读

工程部署

深度学习(K近邻)

k近邻模型

距离度量

分类决策规则:多数表决

总结


摘要

本周是对LSTM的相关文献展开了阅读,LSTM在大气预测等方向有着许多的运用,并且有着其它模型所不具有的一些优点,可以在考虑数据的时序性的同时,对参数的选择不依赖主观经验,以及有效防止梯度消失。除此之外对于应急系统项目的部署中遇到的一些问题,进行了学习和解决,最后对K近邻复习了下。

文献阅读

文章:数据预处理对 LSTM 网络大气污染预测精度分析

作者:杜英魁、 张乙芳、原忠虎、关 屏、彭 跃

摘要:

要大气污染物浓度数据具有时序性和非线性的特点,针对时间序列数据中的异常值和缺失值问题,进行异常值 和缺失值预处理对长短时记忆神经网络(LSTM)预测精度的影响分析。利用箱线图法判别数据序列中的异常值,以均值替 换法、回归插补法和多重插补法进行缺失值的预处理,分别利用原始数据序列和不同预处理方法得到的数据序列,对多变量 输入LSTM神经网络的大气污染物预测精度进行对比分析。实验结果表明,三种预处理方法均可明显改善LSTM模型的预测精度,多重插补法精度最高。

论文目的:研究大气污染 浓度的变化,掌握其变化规律对大气污染的治理、 改善大气污染是十分有必要的。

LSTM模型在针对大气污染物浓度的预测问题相较于其它模型的优点:

  • 较多元回归模型和GM预测模型,考虑了数据的时序性和非线性的特点。

  • 较模糊时序和支持向量机,对于参数的选择不依赖主观经验。

  • 较RNN模型,可以防止出现梯度消失等问题。

主要工作:

通过箱线图法识别出各种污染物浓度数据中的异常值,并采用异常值视为缺失值的处理方法;使用均值替换法、回 归插补法以及多重插补法对数据进行数据预处理, 比较三种缺失值处理方法的效果;建立 LSTM 预测模型,分别使用三种预处理后的数据进行训练与检验,比较LSTM模型的精度。

箱线图:提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR 或大于 Q3+1.5IQR 的值。

处理数据

        1.均值替换法保留了与缺失变量无关的其他变量的信息,最大程度上保证了数据真实性与完整性的特点(计算出各种气体的均值)。

均值替补法前后数据频数分布图:

        

        2.回归插补法:通过污染物变量与时间变量建立回归模型,利用回归方程的预测值对缺失数据进行回归插补。

回归插补法前后数据频数分布图:

 

        3.多重插补法:对原始数据进行多重插补,利用每一个插补值对缺失数据插补得到相应个数的完整样本。

多重插补法前后数据频数分布图:

 

LSTM神经网络简介

长短期记忆网络(LSTM)是循环神经网络(RNN)的变形结构,在隐藏层各神经单元中增加单元状态量,使时间序列上的记忆信息可控;在隐藏层各单元传递时通过遗忘门、输入门、输出门控制历史信息与当前信息的记忆和遗忘程度。

输入数据:PM2.5、PM10、SO2、NO2、O3共五个特征变量。神经元个数为5。

隐藏层神经元个数结合经验公式和不断进行试验的方式来确定。

 

其中n为输入层的神经元个数,n1为输出层神经元个数,a是(1,10)范围内的任意整数,M是隐藏层的神经元个数。前者可算出M的取值范围(4,13),后者可得M值为3,因此M的取范围为3,所以隐含层的神经元个数范围为(3,13)之间的整数。在这范围内采用试凑法,对11种不同隐藏层神经元个数进行对比训练,利用 MAE和RMSE作为模型精度评价指标。找出最合适的隐藏层神经元个数为3。

 

MAE 为平方绝对误差,n 为数据总个数,yi 为数据的真实值,y~i 为数据的预测值。

 

RMSE 为均方根误差,n为数据总个数,yi 为 数据的真实值,y~i 为数据的预测值。

利用前一天五种 污染物浓度值作为模型输入,后一天五种污染物浓 度值作为模型输出,进行 LSTM 模型仿真实验。

缺失值处理方法的预测精度评价指标MAE对比:

 

缺失值处理方法的预测精度评价指标RMSE对比:

 

由比较结果得知模型的隐藏层神经元个数为3时,模型的评价指标最好,并且不同缺失值的处理方法的评价指标也不同。在评价标准MAE中,缺失值处理方法排序为:多重插补>回归插补>均值替换>原始数据。而在RMSE中,缺失值处理方法排序为:多重插补>回归插补>均值替换>原始数据。

多重插补法的RMSE和MAE的值均为最小,模型的预测精度,多重插补法的精准度评价指标MAE提高了22%,RMSE提高了13%,所以应采取多重插补法进行缺失值处理。

结论:

论文建立的三层 LSTM 时间序列模型可以精确地预测五种污染物浓度,实验结果表明通过数据和缺失值预处理,可以有效提高预测精度,其中多重插补法的精度提升最高。对于 LSTM 模型的隐藏层神经元个数设置,采用的是经验公式法和试凑法的结合,因此隐藏层神经元的最优个数的选取上仍然有进一步优化的空间。

工程部署

ASP.Net.MVC:由地址栏访问控制器,通过Models过滤、检验,之后在Views中显示出来

现记录几个在部署工程项目所遇到的几个问题。

  1. CS0161: 并非所有的代码路径都有返回值

    方法声明中有返回类型定义,而方法中有一种执行方式没有返回值。即要为另一种执行方式提供一个返回值,如return 0,return null等。在if外增加一个返回值。

     

  2. CS0136: 无法在此范围中声明名为“xxx"的局部变量或参数,因为该名称在封闭局部范围中用于定义局部变量或参数。

    前面函数形参中有"xxx",后面的"xxx"和前面函数形参里的"xxx"相同而冲突了,只要把"xxx"改成其他的字母就行了

  3. CS8370: 功能"本地函数特性"在C#7.3中不可用。请使用9.0或更高的语言版本。

    打开项目所在目录并打开项目文件。

    在 PropertyGroup 节点下添加 LangVersion语句。

    <LangVersion>9.0</LangVersion>

深度学习(K近邻)

k近邻模型

k近邻算法也被叫做KNN算法,是一种基本分类和回归算法。

思想:物以类聚

特性:

  • 没有训练出针对某种事物的判别模型。

  • 没有算出一个新东西。

  • 简单的统计距离目标点最近的K个节点里数目最多的标签赋予目标点 。

  • 没有显式的训练过程,直接去做预测。

想判断某个目标的类型,即需要判断离这个目标最近的这几个事物的类型,这下则引出了距离度量。

距离度量

 

欧式距离(二范数)

结果越小,代表这两个事物距离越近,欧式距离相当于二者直线的距离。

 

曼哈顿距离(一范数)

曼哈顿距离又被称为城市街区距离,由两条直线组成。

 

P范数

欧式距离和曼哈顿距离本质上指得都是P范数,仅仅只是P的值不一样,P范数公式用于判断两个目标的距离是否相近。

 

切比雪夫距离

切比雪夫距离又被称为棋盘距离,即以目遍为中心画几个范围,第一范围假设距离为1,则第二范围距离为2 ,以此类推。

分类决策规则:多数表决

K值的选择

选择较小的K值:用较小的邻域进行预测。预测结果对邻近的实例点非常敏感。如果邻近的实例点恰好是噪声,预测就会出错。

选择较大的K值:用较大的邻域进行预测。对于输入实例较远的(已经不太相似)的样本点也会对预测起作用,使预测发生错误。

在应用中:先取一个较小的K值,再通过交叉验证法来选取最有的K值

多数表决规则的损失函数:

 

公式中的I指的是指示函数,I(x):x为真,值为1,反之为0。

输入:训练数据集T=[(x 1, y 1), .. , (X n, Yn)] x i属于X属于 Rn, y i属于Y = {C1 , … , cK},实例特征向量x。

1.根据给定的距离度量,在训练集中找到与x最近的k个点,涵盖这k个点的邻域记作Nk(x) 2.在Nk(x)中根据分类决策规则(如多数表决)决定x的类别y

输出:实例x所属的类别y

总结

K近邻模型只是基础的模型,在平常中实际使用较少,下周计划对贝叶斯算法展开学习,同时继续保持文献阅读。对于项目工程的学习,则开始学习框架模型的具体思路和构造了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值