无论 OEM 还是系统集成商,在根据 NVMe SSD 寿命选型是需要考虑业务场景是读密集型、写密集型,还是读写混合型。对于读密集型业务负载,如搜索业务,较低寿命的 SSD 可以满足需求,但对于写入密集型应用,如缓存系统,读写混合型负载,如 OLTP SQL 数据库,SSD 选型就要考虑高寿命产品。
什么是 SSD 寿命?
SSD 寿命是指在生命周期内允许的数据写入量。按照 JEDEC 固态技术协会制定的标准 JESD218 中定义,企业级 SSD 在到达标称寿命临界值前,必须满足以下条件:
- SSD 标称寿命(建议使用 JESD219 定义的寿命测试工作负载)
- SSD 的用户容量保持恒定(保证 OP 不变)
- 在正常寿命使用期内,不可修复错误率(UBER,Uncorrectable Bit Error Rate)≤ 10E-16
- FFR ≤ 3%(对应 AFR 是 0.6%,MTBF ≥ 150 万小时)
- SSD 关机后,40℃的室温下,数据可以保持 3 个月
因为 SSD 使用 NAND 做为存储介质,SSD 的寿命本质上受限于 NAND 的寿命。NAND 寿命的量化指标叫 P/E Cycles,也就是写入/擦除(program / erase)次数,因为 NAND 是以页(page)为单位写入数据,以块(block)为单位擦除,对于已经写入数据的 block,必须将原有数据进行搬移,SSD 是通过“垃圾回收”(Garbage Collection,GC)的机制来回收被无效数据占用的空闲空间,GC 额外搬移的数据需要用到 SSD 的 OP(Over-provisioning)预留空间。对整个 block 的数据擦除后才能允许新数据写入。一写一擦就会消耗 NAND 一个 P/E。在 NAND 还是 2D 平面时代,TLC NAND PE 只有 500~1000,但在 NAND 进入 3D 堆叠时