论文题目:生产数据中心中DRAM错误与服务器故障之间的深入相关性研究
知识点1:DRAM错误
动态随机存取存储器(DRAM)在计算机存储系统中提供CPU与程序运行数据存储。
数据集:
阿里巴巴数据中心 300多万个内存模块中收集的8个月数据集
1.DRAM错误日志
8个月内来自30496台服务器(包括正常和故障服务器)的75.1 M CEs和来自351个服务器的87186个写入错误。
在我们的分析中,我们只关注DRAM错误日志中的CEs,因为写入错误要少得多,并且不会导致数据集中的服务器故障。请注意,此处并不收集UEs,而是收集在故障单中,因为UEs的出现会导致服务器故障。
2.服务器故障故障单
每台服务器都运行一个后台监控守护进程,监控系统级异常事件(例如:服务器崩溃),并将系统事件日志发送到我们的集中维护系统,该系统通过基于规则的检测检查任何服务器故障。如果检测到服务器故障,我们的维护系统会发出故障单,记录服务器ID,时间戳和故障类型。
3017张故障单,其中,2137张在服务器故障前显示至少一个CE,其余的故障单再服务器故障前未显示任何CE。
2137中:567个UE驱动故障 809个CE驱动故障和761个杂项故障
3.库存日志
进一步收集的有关DIMM和服务器的产品详细信息。