[时间序列趋势预测]前期知识汇总

Tialyg

已于 2022-03-23 16:35:40 修改

阅读量1.9k

点赞数 1

分类专栏：笔记时序数据预测文章标签：神经网络时序数据库迁移学习深度学习 lstm

于 2022-03-23 16:35:03 首次发布

本文链接：https://blog.csdn.net/qq_42292095/article/details/123684829

版权

笔记同时被 2 个专栏收录

29 篇文章 1 订阅

订阅专栏

时序数据预测

2 篇文章 0 订阅

订阅专栏

文章目录

1.降维方法
2.回声状态网络（ESN)
3.LSTM网络
4.PSO算法（粒子群优化算法）过程
5.Adam算法
6.RMSprop算法-优化算法
7.迁移学习中特征向量提取以及微调
8.FdeAVG算法

在阅读论文《基于改进联邦学习的时序数据趋势跟踪及应用_胡尧》时涉及到的算法，仅次记录

1.降维方法

机器学习中会用到降维方法，常用的降维方法有两种：PCA（主成分分析）和SVD（奇异值分解）

SVD奇异值分解作为一个很基本的算法，在很多机器学习算法中都有它的身影。SVD奇异值分解是线性代数中一种重要的矩阵分解，是矩阵分析中正规矩阵酉对角化的推广。只需要线性代数知识就可以理解SVD算法，简单实用，分解出的矩阵解释性不强，但不影响它的使用，因此值得研究。

在这里插入图片描述
SVD算法本质是：将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示，这3个小矩阵描述了大矩阵重要的特性。
SVD算法描述：
假设矩阵M是一个m×n阶矩阵，其中的元素全部属于域 K，也就是实数域或复数域。存在这样一个分解使得：
在这里插入图片描述

2.回声状态网络（ESN)

1、概念
在这里插入图片描述

回声状态网络作为一种新型的递归神经网络(如上图)，也由输入层、隐藏层(即储备池)、输出层组成。其将隐藏层设计成一个具有很多神经元组成的稀疏网络，通过调整网络内部权值的特性达到记忆数据的功能，其内部的动态储备池(DR)包含了大量稀疏连接的神经元，蕴含系统的运行状态，并具有短期训记忆功能。ESN训练的过程，就是训练隐藏层到输出层的连接权值(Wout)的过程。总结如下三个特点：
（1）核心结构是一个随机生成且保持不变的储备池(Reservoir)
（2）其输出权值是唯一需要调整的部分
（3）简单的线性回归就可完成网络的训练

推荐博客

3.LSTM网络

长短期记忆网络——通常被称为 LSTM，是一种特殊的 RNN，能够学习长期依赖性。
LSTM 被明确设计用来避免长期依赖性问题。长时间记住信息实际上是 LSTM 的默认行为，而不是需要努力学习的东西！
在这里插入图片描述
LSTM网络非常适合基于时间序列数据进行分类，处理和预测，因为在时间序列中的重要事件之间可能存在未知持续时间的滞后。开发LSTM是为了处理在训练传统RNN时可能遇到的爆炸和消失的梯度问题。对于间隙长度的相对不敏感性是LSTM相对于RNN，隐马尔可夫模型和其他序列学习方法在许多应用中的优势。

4.PSO算法（粒子群优化算法）过程

粒子群优化算法(PSO)是一种进化计算技术(evolutionary computation)，1995 年由Eberhart 博士和kennedy 博士提出，源于对鸟群捕食的行为研究。**该算法最初是受到飞鸟集群活动的规律性启发，进而利用群体智能建立的一个简化模型。**粒子群算法在对动物集群活动行为观察基础上，利用群体中的个体对信息的共享使整个群体的运动在问题求解空间中产生从无序到有序的演化过程，从而获得最优解。

PSO 算法属于进化算法的一种，和模拟退火算法相似，它也是从随机解出发，通过迭代寻找最优解，它也是通过适应度来评价解的品质，但它比遗传算法规则更为简单，它没有遗传算法的“交叉”(Crossover) 和“变异”(Mutation) 操作，它通过追随当前搜索到的最优值来寻找全局最优。这种算法以其实现容易、精度高、收敛快等优点引起了学术界的重视，并且在解决实际问题中展示了其优越性。粒子群算法是一种并行算法。

PSO 初始化为一群随机粒子(随机解)。然后通过迭代找到最优解。在每一次迭代中，粒子通过跟踪两个"极值"来更新自己。第一个就是粒子本身所找到的最优解，这个解叫做个体极值pBest。另一个极值是整个种群目前找到的最优解，这个极值是全局极值gBest。另外也可以不用整个种群而只是用其中一部分作为粒子的邻居，那么在所有邻居中的极值就是局部极值。

粒子群算法的基本思想是通过群体中个体之间的协作和信息共享来寻找最优解
优秀博客推荐

5.Adam算法

Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。

Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率（即 alpha）更新所有的权重，学习率在训练过程中并不会改变。而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

Adam 是一种在深度学习模型中用来替代随机梯度下降的优化算法。
Adam 结合了 AdaGrad 和 RMSProp 算法最优的性能，它还是能提供解决稀疏梯度和噪声问题的优化方法。
Adam 的调参相对简单，默认参数就可以处理绝大部分的问题。

推荐博客

6.RMSprop算法-优化算法

深度学习的优化算法主要有GD，SGD，Momentum，RMSProp和Adam算法

RMSProp优化算法是AdaGrad算法的一种改进。
在这里插入图片描述

可以看出RMSProp优化算法和AdaGrad算法唯一的不同，就在于累积平方梯度的求法不同。

7.迁移学习中特征向量提取以及微调

移学习是把预训练好的模型迁移到新的任务上。
在神经网络迁移学习中，有两个应用场景：特征提取和微调
特征提取：冻结除了全连接层之外的左右网络的权重。最后一个全连接层被替换为具有随机权重的新层，并且仅训练该层。
在特征提取中，可以在预先训练好的网络结构后，修改或添加一个简单的分类器，将源任务上的预先训练好的网络作为另一个目标任务的特征提取器，只对最后增加的分类器参数进行重新学习，而预先训练好的网络参数不会被修改或冻结。

微调：使用预训练网络初始化网络，而不是随机初始化，用新数据训练部分或整个网络。

微调的大致过程：在预先训练过的网络上添加新的随机初始化层，此外，预先训练的网络参数也会被更新，但会使用较小的学习率以防止预先训练好的参数发生较大的变化。

常用的方法是固定底层的参数，调整一些顶层或具体层的参数。好处：减少训练参数的数量，有助于克服过拟合。

具体实现见博客PyTorch 预训练模型，保存，读取和更新模型参数以及多 GPU 训练模型（转载极市平台）.

8.FdeAVG算法

FL主要瓶颈：

通信速率不稳定，且可能不可靠
聚合服务器的容量有限，同时与server通信的client的数量受限

解决方案：
在FL的每一步考虑：
1. 减少client数量
2. 减少通信带宽

FedAvg算法采取策略：
增加客户端计算，限制通信频率（在上传更新的梯度之前执行多次本地梯度下降迭代）

FedAvg算法 :
随机选择m个客户端采样，对这m个客户端的梯度更新进行平均以形成全局更新，同时用当前全局模型替换未采样的客户端

优点：相对于FedSGD在相同效果情况下，通讯成本大大降低
缺点：最终的模型是有偏倚的，不同于预期的每个客户端确定性聚合后的模型。
推荐博客

Tialyg

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
[时间序列趋势预测]前期知识汇总

文章目录1.降维方法2.回声状态网络（ESN)3.LSTM网络4.PSO算法（粒子群优化算法）过程5.Adam算法6.RMSprop算法-优化算法7.迁移学习中特征向量提取以及微调8.FdeAVG算法在阅读论文《基于改进联邦学习的时序数据趋势跟踪及应用_胡尧》时涉及到的算法，仅次记录1.降维方法机器学习中会用到降维方法，常用的降维方法有两种：PCA（主成分分析）和SVD（奇异值分解）SVD奇异值分解作为一个很基本的算法，在很多机器学习算法中都有它的身影。SVD奇异值分解是线性代数中一种重要的矩阵分解
复制链接

扫一扫