VMware vSAN 对现代数据中心的设计、运营和优化产生了深远的影响。向超融合基础设施 (HCI) 的转变不仅改变了数据中心的设计方式,而且自然而然地改变了构成架构的离散元素的重要性。通过消除传统三层架构中的共享存储设备,它将责任集中到主机和连接它们的结构上。这意味着曾经通过隔离结构移动到存储阵列的存储 I/O 流量现在在 IP 网络上运行到其他主机。
传统智慧意味着可靠的连接很重要。然而,尽管迷失在这个真理中,但快速可靠的网络实际上是多么重要。毕竟,构建 TCP/IP 是为了适应不可靠的数据传输的可能性。虽然它做得很好,但通常很少了解网络中瞬态和持续条件造成的影响性能的影响程度。在浏览互联网时可能不会注意到偶尔丢弃的数据包,但使用 HCI,影响可能很大,因为 HCI 依赖于主机间连接以一致且及时的方式提供存储 I/O。
说明数据包丢失和延迟对 IOPS 的影响
让我们更详细地看一下。以下两个插图来自VMware 的高级解决方案架构师Andreas Scherr提供的数据,他去年在拉斯维加斯的 VMworld 上与Cormac Hogan就该主题进行了介绍。
如图 1 所示,我们看到只有 1% 的数据包丢失,每秒写入 I/O (IOPS) 下降了 10%。丢包率降低 2%,IOPS 降低 32%。戏剧性的下降并不止于此,IOPS 降低了 77%,丢包率为 5%。当网络出现 10% 的丢包率时,IOPS 下降了 92% 以上。
图 1. 网络丢包对 IOPS 的影响
图 1 所示的性能影响与使用面向连接的协议的任何类型的流量都非常一致,在遭受数据包丢失的网络连接上运行。发生这种类型的数据包丢失的原因有很多。主机 NIC 设备和驱动程序、网络电缆、网络连接器或交换机可能存在问题。根据问题的原因,这种行为可能仅在环境需求增加时才会出现。不管是什么原因,结果都是一样的;重传,性能急剧下降。
在图 2 中,我们看到将延迟引入环境对可交付的有效 IOPS 数量具有更可预测和线性的影响。当延迟为 5 毫秒 (ms) 时,IOPS 降低了 30%。当延迟增加到 10ms 时,IOPS 降低了 50%。
图 2. 延迟对 IOPS 的影响
延迟可以发生在堆栈中的任何位置。VM 观察到的延迟是各种资源引入的所有延迟的总和,因为 I/O 遍历堆栈。数据包丢失和延迟可能会相互影响。当堆栈中任何地方出现更高延迟时,遭受各种级别数据包丢失的环境将遭受更多损失。
使用 vSAN 识别数据包丢失和延迟
值得庆幸的是,VMware vSAN 提供了很好的可见性,可以更好地了解数据包丢失和延迟。由于 vSAN 直接集成到虚拟机管理程序中,因此它可以从正确的位置以正确的方式测量正确的数据。vSAN 中的性能服务详细介绍了几个关键指标。它识别系统离散元素的能力在于它如何提供有关重新同步流量等细节的详细信息。
vSAN 性能服务始终能够测量不同级别的延迟。vSAN 6.6 扩展了跟踪丢包率的可见性。如图 3 所示,可以根据特定的物理主机适配器识别数据包丢失,以及它是发生在入站还是出站流量上。
图 3. vSAN 性能服务中基于物理适配器的丢包率
还可以在 VMkernel 适配器或 VMkernel 适配器的聚合上识别数据包丢失率,如图 4 所示。当 vSAN 流量配置为每台主机使用多个 VMkernel 时,后者会很有帮助。
图 4. vSAN 性能服务中基于 VMkernel 适配器的丢包率
性能服务允许用户在 90 天期间内指定 1 小时到 24 小时的时间窗口,以跟踪和隔离特定事件。VMware vRealize Operations 和 vRealize Log Insight 等其他工具也可用于增强和提醒管理员已定义的条件。
结论
对快速、确定性存储性能的需求进一步强调了 HCI 环境中主机之间网络流量的一致、可靠交付。使用 vSAN 性能服务作为您更好地了解基础架构元素的第一步,该元素经常被忽视 - 并且在其对性能的影响方面被低估。