前言
HDS的NAS存储机头产品HNAS 4000系列在使用过程中有无预兆重启现象。排查时可能会定位到以下原因——”由于FPGA发生Bit位翻转引发”。
本文对此说法提供额外参考信息。(原文写于2019年,修改处已标注。)
主要结论:
- HNAS 4000系列的重启机制是由Intel的FPGA芯片校验技术引发和自身产品设计逻辑决定的
- 不变更上一条的情况下,对HNAS升级微码不能彻底解决此问题。
- HNAS的后续产品使用了stratix V芯片,这款芯片可以对CRC校验出的位翻转错误进行修复,从而避免重启。
- 核实HNAS系列均使用的是stratix IV芯片。(注:当时的说法,现在HNAS已经出到5000系列,另外N系列存储的的Nas Blade也使用stratix V芯片)
正文
我曾在当时HDS官方社区中搜索到一条提问(注:现链接已经失效故删除),所描述的现象和实际遇到的情况完全相同。
这条提问中对重启发生的技术原理做了解释。
简单介绍一下:FPGA芯片中有一种CRC校验机制时,如果它发现了单bit突然的翻转现象(这就是从二进制的0变成1或者1变成0,这是所有电气设备都可能产生的),它就会发出一个“assert”的状态信号。在HNAS设备中,会因为这个信号重启自身。以消除这种瞬时错误。(