阅读--2020-6-3 云数据中心绿色节能需求的虚拟机负载均衡技术研究_彭成磊

最新推荐文章于 2024-10-04 18:56:49 发布

孙维恪

最新推荐文章于 2024-10-04 18:56:49 发布

阅读量378

点赞数 1

分类专栏：论文阅读时间序列预测文章标签：神经网络

本文链接：https://blog.csdn.net/sinat_33211329/article/details/116451641

版权

论文阅读同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

时间序列预测

9 篇文章 1 订阅

订阅专栏

link

论文笔记摘要：

1、摘要

以节能为目标的动态虚拟机均衡算法
提出最短迁移时间策略、随机选择策略、
基于相空间重构PSR和数据组合处理方法EA-GMDH的负载预测
利用Autoencoder自编码和Softmax分类器

2、介绍：背景、相关工作

3、实验

4、之后的研究点

5、相关知识

6、与我相关

文章太大了，只要读第四章和第五章就行了

-----------------------------------------------------------------------------------------

第四章：基于相空间重构和数据组合处理方法的负载预测

实现预测连续时间间隔内的平均负载，实现未来某个是简单的精确负载预测

利用自组织神经网络模型和进化算法相结合，设置预测期限的主机负载预测算法
- 相空间重构 Phase Space Reconstruction 简称PSR
- 基于进化算法的数据组合处理 Evolutionary Algorithm based Group Method of Data Handling
  简称EA-GMDH
因为主机工作负载序列是一维时间序列，我们使用PSR方法将其重构成了多维空间中的多维时间序列，经过
重构的多维时间序列能够描述出整个多变量系统，有利于提高预测精度
EA-GMDH 灵活性较高，每个神经元都可以有不同输入变量的序号和不同的多项式顺序

2、相关工作

92 马尔可夫模型和周期性的分析方法
93 基于模拟环境利用马尔可夫模型实现主机负载
94 组合自回归模型AR和卡尔曼滤波器实现提前多步的负载预测
95 在负载预测中使用人工神经网络技术，但是在大型数据中心的主机负载预测中，预测结果有效性会有明显的下降，
因为其主机的负载波动非常大
97 自回归综合移动平均法ARIMA 进行主机负载预测。ARIMA通过对一步预测的迭代可以实现对一个时间窗H中负
载进行预测
98 使用多个固定长度的历史数据序列来获得主机负载模式，但是文章并没提及如何寻找相同序列和模式的序列长度
大小这一重要参数
99 使用贝叶斯模型来实现云环境下的主机负载预测，用9个新特性来描述负载数据窗口中最近的负载变化情况，他
们使用指数级的窗口大小模式，随着分段长度的不断增加，所预测的平均负载数值将无法准确反应主机负载的真实变化
包含了贝叶斯估计法(Bayes)、简单移动平均法(SMA)、线性加权移动平均(LWMA)以及指数移动平均(EMA)等方法

时间序列相空间重构：

相空间重构[100] 是分析混沌时间序列的基础：指一个混沌系统在某个时刻的状态，相空间就是决定其状态的几何空间

相空间重构基本思想：系统中任一分量的演化都是相互作用着的其他分量决定的，因此这些相关分量的信息就隐含在任

一分量的变化过程中。

事件延迟嵌入方法：通过测量一个分量在某些固定的时间延迟点上的数值处理成新的维度，从而
可以确定多维状态空间中的某一个点的数值。针对不同的时间点延迟参数，重复上述步骤进行测
量就可以得到更多的这样的数值，将原动力系统的许多特征都保存下来，也就是用系统的一个观
察量可以重构出原系统的模型，并初步确定原系统的真实信息。
基本内涵：对于无噪声无限长的d维混沌吸引子的标量事件序列{x(n)}，只要满足维数m>=2d+1
的条件，就能在拓扑不变的意义上找到一个m维的嵌入空间。Takens定理确保了可从一维混沌
时间序列中重构一个与原动力系统在拓扑意义下等价的相空间。

前提是时间序列必须是混沌时间序列。最常见的验证方法是计算时间序列的Lyapunov指数
一个正的Lyapunov指数意味着在系统相空间中，无论初始两条轨线的间距多小，其差别都
会随着时间的演化而成指数率的增加以致达到无法预测，这就是混沌现象。
因此对于系统是否存在混沌，可以从最大Lyapunov指数是否大于0来判断

关于嵌入维度//时间延迟嵌入方法得到重构结果包含了嵌入维度m和滞后因子t
- 一种认为这两个参数之间互不相关，可以各子独立求出数值。
  - 滞后因子t的目标是让时间序列经过延迟重构后能够作为独立坐标来使用
    - 常见方法：自相关法、平均位移法、复相关法、互信息法
  - 计算最小嵌入维度m的
    - 几何不变量法、伪最邻近点法
- 文章中认为嵌入维数和滞后因子是相关的，需要同时确定两个参数
  [102]Kim等人基于嵌入窗的思想提出了C-C，该方法使用关联节分同时估计嵌入窗和滞后因子的值
  方法较为简单，计算复杂度不高

数据组合处理进化方法(GMDH)

GMDH是一个自组织的前馈神经网络，可以被表示为一组神经元的集合，其中每一层上的不同的配对通过一

个二次多项式连接并产生新的神经元，理论基础：Kolmogorov-Gabor 多项式。

传统的GMDH网络，每个节点最多只能有两个其他的输入节点，网络中间层的节点只能与其之前的节点进行

相连。其Kolmogorov-Gabor多项式最高阶只能为2，可以看出传统的GMDH有较多局限性。文章提出基于进化算法(EA)

和 GMDH算法(EA-GMDH)

3、实验

算法架构：

算法包含了两大阶段：
1. 首先对历史数据应用PSR方法进行重构，形成训练集和验证集，送入EA-GMDH网络进行训练，
  得到最优的网络结构
2. 将待预测的历史负载数据预测集，通过PSR重构，送入上一步训练好的最优网络中进行预测，
  得到最终的预结果

实验数据

整个数据集包含了大约12,000台机器的负载数据，共运行了超过670,000个应用，大约4,000万个任务
- 划分方式：训练--从开始到第20天，验证集--第21天到第26天，预测集--第27天到29天
数据负载可进行分类：1具有较强的周期性特征、2工作负载相对杂乱无章

实验评估

未来连续时间内的平均负载预测和在不同分段时间限制内的精确负载预测
平均负载预测，采用同样分段均方误差MSSE来进行比较

实验对比算法 [99]
- 贝叶斯估计法 Bayes
- 简单移动平均法 SMA
- 线性加群啊移动平均 LWMA
- 指数移动平均 EMA

精确负载预测，基于每个小的时间片段进行负载预测，使用均方误差来进行比较[动画表情]

实验对比算法 [98]
- 自回归模型 AR
- 人工神经网络 ANN
- 多部模式预测

数据集的采用周期是5分钟，我们设置了四种预测步长，分别是0.5h、1h、2h、3h
对应的采样点数分别是6，12，24，36

---------------------------------------------------------------------------------------------------

第五章：基于无监督学习方法的主机负载预测

与直接进行主机负载预测不同，我们将未来时间期限平均分成连续的时间片来实现平均负载预测。

实验得出，如果时间片的长度选择合适，时间片的模式将能体现出未来时间期限的明显特征
我们将负载预测问题转换成了一个分类问题，通过无监督学习的特征提取，将历史窗口中的
负载数据特征提取出来，送入softmax回归模型分类器来实现未来负载数据的预测
- 稀疏自编码autoencoder神经网络，将历史窗口的工作负载数据作为网格的输入，经
  过网络重构得到输出结果。其中隐藏层的数据就是学习到的特征，该数据作为softmax
  回归模型分类器的输入，经过分类操作后的输出即最终预测得到的结果
  （ softmax 回归是 logistic 回归的一般形式，logistic 回归是 softmax 回归在 k=2时的特殊形式，）

1、创新点