节点name在graph中无法展示_单节点故障对比 – Nutanix vs VMware vSAN

10a05f03d2dba025e30fcffe5f5c05e6.png

Josh博客原文

在本系列文章中,我们了解到在使用重复数据删除和压缩以及纠删码时,Nutanix可提供更多可用容量,并具有更高的容量效率,灵活性,弹性和性能。

然后,我们转换话题,了解异构集群支持,并了解了这对于HCI平台扩展和提供更高的投资回报(不会将系统管理分离,更换或创建新的孤岛管理)的能力至关重要。

然后,我们介绍了写入操作的I / O路径,重点介绍了Nutanix独特数据本地化的许多优点,这些优点可以根据VM在集群中的当前位置以及性能/容量利用率来智能地放置数据。 最佳的写副本位置确保了后续的读取I / O操作主要由Nutanix ADSF在本地提供服务,而vSAN则主要是为远程读取提供服务(类似于传统的SAN)。

我们还了解到,Nutanix提供了更简单,更出色的存储可扩展性,并大大减少了来自磁盘带来的故障影响。

在这一部分中,我们将展开弹性这一关键话题,并讨论两种平台如何处理各种节点故障场景并从中恢复。 与先前有关驱动器故障的文章一样,我们将再次使用DellEMC最受欢迎的全闪存硬件配置VxRAIL E系列,以避免任何异议。

注意:对于本文中提供的示例,所用的商用硬件与vSAN或Nutanix ADFS的工作方式没有区别,但是闪存盘的数量将使VSAN和NutanixADFS存在差异。

示例1:主机没有响应/失败

如果vSAN主机没有响应,VMware的文档对过程进行如下描述:

如果主机由于故障或主机重新启动而停止响应,则vSAN将先等待主机恢复,然后vSAN才会在集群中其他位置的主机上开始重建数据。

VMware介绍了vSAN开始重建数据之前发生的过程:

“如果主机在60分钟内未重新加入群集,则vSAN会检查群集中的其他一些主机是否可以满足对无法访问的主机上对象的缓存、空间和放置规则的要求。 如果有这样的主机可用,vSAN将启动恢复过程。

如果主机在60分钟后重新加入集群并开始恢复,则vSAN会评估是继续恢复还是停止恢复,并重新同步原始组件。”

REFERENCE: HTTPS://DOCS.VMWARE.COM/EN/VMWARE-VSPHERE/6.7/COM.VMWARE.VSPHERE.VSAN-MONITORING.DOC/GUID-CC944D93-285B-4271-A8A9-5BAF5250CB0A.HTML

另一篇VMware文章清楚地展示了这种行为:

421bb02422dd5411997811dd8cae35b8.png

Reference: https://docs.vmware.com/en/VMware-vSphere/6.7/com.vmware.vsphere.vsan-monitoring.doc/GUID-3863B640-3449-46A2-84E0-AC07E5A604FD.html

这意味着故障节点上的数据对象不可用,vSAN集群中随后发生的单个磁盘故障可能会导致数据丢失。 由于任何单个磁盘故障都会导致整个磁盘组的数据丢失这个原因,如果集群正在使用重复数据删除和压缩,则风险将大大增加

这种风险将一直持续到60分钟的延迟且一直到数据重建操作完成。

可以在60分钟计时器结束之前由管理员手动启动重建,方法是浏览至“ Virtual SAN Object Health”,然后选择“ Rebuild Objects”。

对于Nutanix,如果节点没有响应,则Nutanix立即(<1min)开始重建数据操作,如果节点重新联机,则数据具有比配置的弹性系数(2或3)更多的副本。,将在下一次扫描期间自动标记为删除。 (Curator是一种全自动的后台扫描功能,有助于使群集保持最佳状态)。

这意味着Nutanix客户的数据重建可能会在vSAN 60分钟延迟重建之前就已完成。

注意:vSAN 60分钟的延迟可以手动更改。 该比较着重于两种产品的默认配置。

示例2:用于重建的底层存储体系结构

vSAN恢复对象(每个对象最多255 GB)数据,源节点上的主对象数据只能复制到群集中其他节点上的缓存磁盘上(每个磁盘组1个)。

在VxRAIL E系列中,使用全闪存配置,这意味着数据重建操作主要使用2个SSD(2个磁盘组的2个缓存盘),并间接使用每个磁盘组剩余的4个SSD(共8个)进行重建。

这意味着对于使用DellEMC最受欢迎的全闪存硬件配置的客户,vSAN / VxRAIL主要仅使用20%的物理驱动器进行数据重建!

这说明vSAN没有充分利用群集中的可用硬件,这最终意味着:

1.数据恢复需要更长的时间

2.数据面临的风险更长(不符合所配置的FTT)

3.由于vSAN通过上限为800GB的写缓存驱动器发送大容量数据,因此对性能的影响更高。

4.碎片(无法使用的容量)更可能发生

使用Nutanix,重建是基于4MB的Extent Group执行的,并且可以使用群集中的所有节点和磁盘驱动器,以多对多的方式执行重建。

对于与VxRAIL E系列相同的硬件平台,使用相同的全闪存配置,Nutanix重建操作将主要使用集群中所有节点中的所有SSD。 在此示例中,使用VxRAIL E系列中类似的配置,Nutanix ADSF每个节点使用所有10个SSD,从而避免了将数据从2个缓存驱动器再次移动到8个数据磁盘的情况。

在相同配置下,这意味着Nutanix ADSF使用5倍可用物理磁盘进行数据重建。数据重建速度更快。

因为Nutanix不受磁盘组概念的限制,集群中的所有驱动器都形成一个存储池。

Nutanix ADSF还可以动态平衡整个集群中的重建数据(与所有写入IO平衡分布一样),以避免分散群集中的数据可用容量,并在整个过程中进行性能优化。

重建数据直接写入到Extent Store区域,而不是直接写入“ Oplog”(持久写入缓冲区),因为它具有较大的顺序IO,而通过“ Oplog”(简单来说就是随机写入缓冲区)则没有优势。

这避免了像vSAN进行重建数据时不得不耗尽缓存的问题。

有关Nutanix如何快速重建以下节点故障的示例,请查看以下文章:

1. Nutanix节点故障重建性能(RF2)

2. Nutanix节点故障重建与RF3的性能

示例3:当主机停止响应时,写入I / O完整性。

使用vSAN,在开始重建操作之前的60分钟延迟内以及直到该重建操作完成之前,不能保证新的写入I / O受配置的容错(FTT)策略保护。

使用Nutanix,直到数据符合配置的弹性因子(RF2或RF3),否则所有新的写入操作(无论群集状态如何)都不会返回写完成。

这是任何最低限度存储产品的关键功能,只有在将数据提交到冗余状态的持久性介质后,才可以确认数据写完成,而vSAN并不符合生产级存储的这一基本要求。

查看 Part 6 of my Nutanix Resiliency series – Write I/O during maintenance or failures.

示例4:三个节点群集,当一个节点发生故障时会发生什么?

使用vSAN,即使有足够的容量可用,并且新的写入不再与FTT1兼容,也不会重建数据。

VMware文档指出:

虽然vSAN完全支持2节点和3节点配置,但是这些配置的容灾行为可能与具有4个或更多节点的配置不同。 特别是在发生故障的情况下,没有资源可以在集群中的另一台主机上重建组件以容忍再次发生故障。 同样,对于2节点和3节点配置,也在维护期间无法从节点迁移所有数据。

VSAN在2节点和3节点配置中,有2个数据副本和一个见证服务,并且这些副本都必须位于不同的主机上。 2节点和3节点配置只能容忍1个故障。 这样做的含义是,如果节点发生故障,vSAN将无法重建组件,也无法提供能够容忍故障的新VM。 发生故障后,它无法重新保护虚拟机对象,直到还原出故障的组件为止。

设计决策:vSAN群集设计应考虑4个或更多节点,以实现最大可用性

参考:HTTPS://STORAGEHUB.VMWARE.COM/T/VMWARE-R-VSAN-TM-DESIGN-AND-SIZING-GUIDE-2/3-NODE-CONFIGURATIONS-1/

对于Nutanix,只要有足够的容量,Nutanix就可以重建数据。 这使三节点集群能够容忍节点故障,数据重建后支持后续的驱动器故障而不会丢失数据。 实际上,在随后的驱动器故障之后,如果存在足够的容量,群集将再次重建为符合RF2标准,并且能够忍受另一个驱动器故障。

即使集群处于降级状态,例如三节点群集遭受节点故障,Nutanix也会为所有新写入IO保持RF2。

总结:

这展示了Nutanix架构的优异性:

1.使用集群中的所有可用硬件进行数据重建

2.更快地恢复所需的数据,保证数据弹性系数(RF)。

3.数据风险处于较短的时间。

4.对性能的影响较低,原因是:

A.对所有磁盘驱动器的分布式操作

B.避免将数据从缓存转移到数据磁盘

5.数据重建过程中,将数据放置在最佳位置来避免任何潜在的磁盘中的数据平衡问题,以避免后期处理磁盘平衡。

6. 发生问题,Nutanix数据重建操作立即开始(<1分钟)

7.重建操作使用所有物理SSD盘

8. Nutanix避免数据重建通过缓存驱动器。

9.在所有节点/主机故障情况下,Nutanix始终保持I / O写入完整性

10.即使集群由于缺少配置的弹性系数的节点而处于降级状态,Nutanix仍将进行重建数据。

11. vSAN在丢失单个节点后,三个节点集群无法重建数据或维护数据完整性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值