伴随企业业务的不断扩大,业务IT支撑系统规模及平台组件架构数量对应激增,其中作为基础资源之一的主机数量也程指数级增加,与此同时业务对系统资源的需求和敏感度也伴随业务规模的增加而越发的苛刻。运维团队对系统可用性的保障也如履薄冰,每一个可能的异常情况都应该被及时发现,及时响应,及时处理,以保障系统和服务的稳定高效运行,给客户良好的使用体验。为了保障基础资源之一主机的稳定可靠,笔者对运行中的主机健康度做了基于LSTM循环神经网络的预测。
本次分享分为四个部分:
1、LSTM简介
2、基本数据准备
3、多元LSTM预测
4、模型优化
01LSTM简介随着深度学习技术发展,相关深度学习模型逐渐被应用到时序数据研究中。深度学习模型是拥有多个非线性映射层级的深度神经网络模型,对输入信号逐层抽象并提取特征,挖掘出更深层次的潜在规律,以达到提前预知预警的效果。
众多深 度 学 习 模 型 中,循 环 神 经 网 络 ( RecurrentNeural Network,RNN) 将时序的概念引入到网络结构设计中,使其在时序数据分析中表现出更强的适应性。
RNN 变体中,长短期记忆( Long Short-Term Memory,LSTM) 模型弥补了RNN 的梯度消失、梯度爆炸和长期记忆能力不足等问题,使循环神经网络能够真正有效地利用长距离的时序信息。
LSTM 模型在不同领域的时序数据研究中已有不少成功的应用案例,包括文字语言相关的语言建模、语音识别、机器翻译,多媒体相关的音频和视频数据分析、图片标题建模,道路运输相关的交通流速预测,以及医学相关的蛋白质二级结构序列预测等。
但在可靠性领域,LSTM 模型的应用非常有限,尤其是对故障时间序列预测的相关问题研究,目前还未发现更多的案例。本文针对系统级故障时间序列数据,提出了一种基于 LSTM 循环神经网络的预测方法,该方法包括3 层( 输入层、隐藏层和输出层) 网络结构的详细设计,以及网络训练和网络预测的具体实现算法等。在此基础上,以预测误差最小化为目标,进一步提出了基于多层网格搜索的 LSTM 预测模型参数优选算法。
LSTM模型网络拓扑