论文阅读--An In-Depth Correlative Study Between DRAM Errors andServer Failures in Production Data Cente

论文题目:生产数据中心中DRAM错误与服务器故障之间的深入相关性研究

知识点1:DRAM错误

动态随机存取存储器(DRAM)在计算机存储系统中提供CPU与程序运行数据存储。

数据集:

阿里巴巴数据中心  300多万个内存模块中收集的8个月数据集

1.DRAM错误日志

   8个月内来自30496台服务器(包括正常和故障服务器)的75.1 M CEs和来自351个服务器的87186个写入错误。

在我们的分析中,我们只关注DRAM错误日志中的CEs,因为写入错误要少得多,并且不会导致数据集中的服务器故障。请注意,此处并不收集UEs,而是收集在故障单中,因为UEs的出现会导致服务器故障。

2.服务器故障故障单

  每台服务器都运行一个后台监控守护进程,监控系统级异常事件(例如:服务器崩溃),并将系统事件日志发送到我们的集中维护系统,该系统通过基于规则的检测检查任何服务器故障。如果检测到服务器故障,我们的维护系统会发出故障单,记录服务器ID,时间戳和故障类型。

3017张故障单,其中,2137张在服务器故障前显示至少一个CE,其余的故障单再服务器故障前未显示任何CE。

2137中:567个UE驱动故障 809个CE驱动故障和761个杂项故障

3.库存日志

进一步收集的有关DIMM和服务器的产品详细信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值