诊断使用 MegaRAID 磁盘控制器的服务器上发生的 SAS 数据路径故障
在使用 MegaRAID 磁盘控制器的 Oracle x86 服务器上,可能会发生串行连接 SCSI (Serial Attached SCSI, SAS) 数据路径错误。要对 SAS 磁盘控制器、磁盘底板 (disk backplane, DBP)、SAS 电缆、SAS 扩展器或硬盘驱动器 (hard disk drive, HDD) 上的数据路径问题进行分类和隔离,请收集并查看磁盘控制器事件日志中的事件。根据服务器 SAS 拓扑对磁盘控制器报告的所有故障事件进行分类和分析。
对 MegaRAID 磁盘控制器事件进行分类:
通过运行 sundiag 自动化实用程序或者手动使用 MegaCLI 或 StorCLI 命令收集并分析 MegaRAID 磁盘控制器事件日志。
对于 Oracle Exadata Database Machine 数据库或存储单元服务器,请运行 sundiag 实用程序。
对于 Oracle Server X5-2/L,请使用 StorCLI 命令(StorCLI 命令向下兼容 MegaCLI 命令)。
例如,通过使用 MegaCLI 命令收集并分析控制器事件日志。在 root 提示符下,键入:
root#./MegaCli64 adpeventlog getevents –f event.log aall
Success in AdpEventLog
Exit Code: 0x00
注 -
请使用事件日志的现有名称作为磁盘控制器事件日志的名称。这将生成具有给定文件名 event.log 的 MegaRAID 控制器事件日志。
如果在事件日志中发现以下 SCSI 检测关键字错误,则表示存在 SAS 数据路径故障:
B/4B/05 :SERIOUS: DATA OFFSET ERROR
B/4B/03 :SERIOUS: ACK/NAK TIMEOUT
B/47/01 :SERIOUS: DATA PHASE CRC ERROR DETECTED
B/4B/00 :SERIOUS: DATA PHASE ERROR
磁盘与主机总线适配器之间的通信故障导致了这些错误。存在这些错误(即使是在单个磁盘上)意味着存在数据路径问题。RAID 控制器、SAS 电缆、SAS 扩展器或磁盘底板可能导致 RAID 控制器与磁盘之间的路径中发生通信中断。
Oracle 服务人员可以在 My Oracle Support Web 站点上找到有关对 x86 服务器上的硬盘和 SAS 数据路径故障进行诊断和分类的更多信息,网址为:https://support.oracle.com。请参阅文档 ID 为 2161195.1 的知识库文章。如果 Exadata 服务器上同时有多个磁盘问题,则 Oracle 服务人员可以参阅文档 ID 为 1370640.1 的知识库文章。