论文笔记摘要:
1、摘要
- 以节能为目标的动态虚拟机均衡算法
- 提出最短迁移时间策略、随机选择策略、
- 基于相空间重构PSR和数据组合处理方法EA-GMDH的负载预测
- 利用Autoencoder自编码和Softmax分类器
2、介绍:背景、相关工作
3、实验
4、之后的研究点
5、相关知识
6、与我相关
文章太大了,只要读第四章和第五章就行了
-----------------------------------------------------------------------------------------
第四章: 基于相空间重构和数据组合处理方法的负载预测
实现预测连续时间间隔内的平均负载,实现未来某个是简单的精确负载预测
- 利用自组织神经网络模型和进化算法相结合,设置预测期限的主机负载预测算法
- 相空间重构 Phase Space Reconstruction 简称PSR
- 基于进化算法的数据组合处理 Evolutionary Algorithm based Group Method of Data Handling
简称EA-GMDH
- 因为主机工作负载序列是一维时间序列,我们使用PSR方法将其重构成了多维空间中的多维时间序列,经过
重构的多维时间序列能够描述出整个多变量系统,有利于提高预测精度 - EA-GMDH 灵活性较高,每个神经元都可以有不同输入变量的序号和不同的多项式顺序
2、相关工作
- 92 马尔可夫模型和周期性的分析方法
- 93 基于模拟环境利用马尔可夫模型实现主机负载
- 94 组合自回归模型AR和卡尔曼滤波器实现提前多步的负载预测
- 95 在负载预测中使用人工神经网络技术,但是在大型数据中心的主机负载预测中,预测结果有效性会有明显的下降,
因为其主机的负载波动非常大 - 97 自回归综合移动平均法ARIMA 进行主机负载预测。ARIMA通过对一步预测的迭代可以实现对一个时间窗H中负
载进行预测 - 98 使用多个固定长度的历史数据序列来获得主机负载模式,但是文章并没提及如何寻找相同序列和模式的序列长度
大小这一重要参数 - 99 使用贝叶斯模型来实现云环境下的主机负载预测,用9个新特性来描述负载数据窗口中最近的负载变化情况,他
们使用指数级的窗口大小模式,随着分段长度的不断增加,所预测的平均负载数值将无法准确反应主机负载的真实变化
包含了贝叶斯估计法(Bayes)、简单移动平均法(SMA)、线性加权移动平均(LWMA)以及指数移动平均(EMA)等方法
时间序列相空间重构:
相空间重构[100] 是分析混沌时间序列的基础:指一个混沌系统在某个时刻的状态,相空间就是决定其状态的几何空间
相空间重构基本思想:系统中任一分量的演化都是相互作用着的其他分量决定的,因此这些相关分量的信息就隐含在任
一分量的变 化过程中。
- 事件延迟嵌入方法:通过测量一个分量在某些固定的时间延迟点上的数值处理成新的维度,从而
可以确定多维状态空间中的某一个点的数值。针对不同的时间点延迟参数,重复上述步骤进行测
量就可以得 到更多的这样的数值,将原动力系统的许多特征都保存下来,也就是用系统的一个观
察量可以重构出原系统的模型,并初步确定原系统的真实信息。 - 基本内涵:对于无噪声无限长的d维混沌吸引子的标量事件序列{x(n)},只要满足维数m>=2d+1
的条件,就能在拓扑不变的意义上找到一个m维的嵌入空间。Takens定理确保了可从一维混沌
时间序列中重构一个与原动力系统在拓扑意义下等价的相空间。
- 前提是时间序列必须是混沌时间序列。最常见的验证方法是计算时间序列的Lyapunov指数
一个正的Lyapunov指数意味着在系统相空间中,无论初始两条轨线的间距多小,其差别都
会随着时间的演化而成指数率的增加以致达到无法预测,这就是混沌现象。
因此对于系统是否存在混沌,可以从最大Lyapunov指数是否大于0来判断
- 关于嵌入维度//时间延迟嵌入方法得到重构结果 包含了嵌入维度m和滞后因子t
- 一种认为这两个参数之间互不相关,可以各子独立求出数值。
- 滞后因子t的目标是让时间序列经过延迟重构后能够作为独立坐标来使用
- 常见方法:自相关法、平均位移法、复相关法、互信息法
- 计算最小嵌入维度m的
- 几何不变量法、伪最邻近点法
- 滞后因子t的目标是让时间序列经过延迟重构后能够作为独立坐标来使用
- 文章中认为嵌入维数和滞后因子是相关的,需要同时确定两个参数
[102]Kim等人基于嵌入窗的思想提出了C-C,该方法使用关联节分同时估计嵌入窗和滞后因子的值
方法较为简单,计算复杂度不高
- 一种认为这两个参数之间互不相关,可以各子独立求出数值。
数据组合处理进化方法(GMDH)
GMDH是一个自组织的前馈神经网络,可以被表示为一组神经元的集合,其中每一层上的不同的配对通过一
个二次多项式连接并产生新的神经元,理论基础:Kolmogorov-Gabor 多项式。
传统的GMDH网络,每个节点最多只能有两个其他的输入节点,网络中间层的节点只能与其之前的节点进行
相连。其Kolmogorov-Gabor多项式最高阶只能为2,可以看出传统的GMDH有较多局限性。文章提出 基于进化算法(EA)
和 GMDH算法(EA-GMDH)
3、实验
算法架构:
- 算法包含了两大阶段:
- 首先对历史数据应用PSR方法进行重构,形成训练集和验证集,送入EA-GMDH网络进行训练,
得到最优的网络结构 - 将待预测的历史负载数据预测集,通过PSR重构,送入上一步训练好的最优网络中进行预测,
得到最终的预结果
- 首先对历史数据应用PSR方法进行重构,形成训练集和验证集,送入EA-GMDH网络进行训练,
实验数据
- 整个数据集包含了大约12,000台机器的负载数据,共运行了超过670,000个应用,大约4,000万个任务
- 划分方式:训练--从开始到第20天,验证集--第21天到第26天,预测集--第27天到29天
- 数据负载可进行分类:1具有较强的周期性特征、2工作负载相对杂乱无章
实验评估
- 未来连续时间内的平均负载预测和在不同分段时间限制内的精确负载预测
- 平均负载预测,采用同样分段均方误差MSSE来进行比较
- 实验对比算法 [99]
- 贝叶斯估计法 Bayes
- 简单移动平均法 SMA
- 线性加群啊移动平均 LWMA
- 指数移动平均 EMA
- 精确负载预测,基于每个小的时间片段进行负载预测,使用均方误差来进行比较[动画表情]
- 实验对比算法 [98]
- 自回归模型 AR
- 人工神经网络 ANN
- 多部模式预测
- 数据集的采用周期是5分钟,我们设置了四种预测步长,分别是0.5h、1h、2h、3h
对应的采样点数分别是6,12,24,36
---------------------------------------------------------------------------------------------------
第五章:基于无监督学习方法的主机负载预测
与直接进行主机负载预测不同,我们将未来时间期限平均分成连续的时间片来实现平均负载预测。
- 实验得出,如果时间片的长度选择合适,时间片的模式将能体现出未来时间期限的明显特征
- 我们将负载预测问题转换成了一个分类问题,通过无监督学习的特征提取,将历史窗口中的
负载数据特征提取出来,送入softmax回归模型分类器来实现未来负载数据的预测- 稀疏自编码autoencoder神经网络,将历史窗口的工作负载数据作为网格的输入,经
过网络重构得到输出结果。其中隐藏层的数据就是学习到的特征,该数据作为softmax
回归模型分类器的输入,经过分类操作后的输出即最终预测得到的结果
( softmax 回归是 logistic 回归的一般形式,logistic 回归是 softmax 回归在 k=2时的特殊形式,)
- 稀疏自编码autoencoder神经网络,将历史窗口的工作负载数据作为网格的输入,经
1、创新点
- 提出一种新的负载序列分段模式,将预测问题转换为分类问题,进而使用分类算法来解决主机负载
预测问题 - 使用无监督学习方法对历史窗口中的负载数据的上层特征进行提取,也是目前首次将该方法用于主机
负载预测领域 - 采用真实的负载数据进行仿真与验证
2、相关工作
CPU利用率、内存使用率、磁盘使用率以及网络带宽这些资源,最能反应云环境中用户资源请求和使
用情况的指标是主机的CPU利用率
- 96 Guenter等人提出精确主机负载预测有利于实现服务器整个并降低整体能耗
- 104 Urgaonkar等人提出精确的负载预测有利于实现动态资源提供
- 105 Osman等人提出精确的负载预测有利于实现虚拟机迁移
- 106 Yang等人提到使用主机负载监测工具来将工作负载数据记录成一维时间序列
- 99 Di等人对云计算和网格环境下的工作负载进行了比较,结果表明,云环境下的平均噪声大约是传统
网格环境下的20倍 - 92-94 需要针对网格计算和高性能计算环境中的负载预测相关研究不再赘述
- 108-109 Hinton等人首次提出了Autoencoder神经网络
预测回归问题转换为分类问题
我们将整个主机负载的范围切分成若干个小的区间,每个区间对应一个利用率,可以当作一个类别来看待。即用
一种分段模式来描述未来一定时间内的主机负载波动情况。 将预测区间划分为若干个连续等长时间片段,并对这些时
间片段内的负载进行预测。
我们发现将时间片段数量设置成4,能够完整描述工作负载的波动情况。
为了方便研究,我们对CPU利用率的工作负载指标进行归一化处理,所有的利用率在[0,1]区间内。
文章中将负载利用率划分设置成50个片段,将主机工作负载范围从[0,1]划分成小的时间片段能够使得预测器将回
归问题转换成分类问题。不同于预测某个工作时间片的负载,该预测方法,可以预测未来若干个连续时间片内的平均负
载。
Autoencoder(自动编码器) 就是一种尽可能复现输入信号的神经网络,它从一种无标记数据中自动地学习特征地方
法。文章中使用了 稀疏Autoencoder,这是反向传播BP算法,让网络目标值等于输入值的一种无监督学习方法,在标准
的Autoencoder算法上,加上了L1约束限制(每一层中的节点大部分数据为0,少数不为0)