Tech Talk · 云技术有话聊 | 关键基础部件如何保障高可靠?

4月14日,信服云可靠性技术专家Marshall在信服云《Tech Talk · 云技术有话聊》系列直播课上进行了《关键基础部件可靠性技术解析》的分享,详细介绍了 IT系统常见的物理故障对业务的可靠性的影响、如何运用软件定义解决硬件故障等内容。以下是他分享的内容摘要,想要了解更多可以关注“深信服科技”公众号回顾本期直播。

一、可靠性的定义和目标
可靠性是指系统不会意外地崩溃、重启甚至发生数据丢失,这意味着一个可靠的系统必须能够做到故障自修复,对于无法自修复的故障也尽可能进行隔离,保障系统其余部分正常运转。简而言之,可靠性的目标是缩短因故障(产品质量、外部部件、环境、人因等)造成的业务中断时间。

高可靠可以从三个层面理解:一,不出故障,系统可以一直正常运行,这种情况就需要提高硬件的研发质量。二,故障不影响业务。三,影响业务但能快速恢复。后两个层面可以通过“软件定义”的方式去规避硬件故障产生的业务中断。

谈到可靠性,首先要了解服务器的关键基础部件。从业界的服务器统计数据看,硬件部件的问题集中在内存、硬盘、CPU、主板、电源、网卡上。在云的环境当中,同一台服务器上可能运行了若干不同业务、不同场景的虚拟机,一旦物理设备崩溃,将会波及众多用户,同时也会对运营商自身造成巨大损失。而在现有的故障模式中,内存、硬盘故障是最高发和最严重故障。

关于内存和硬盘的故障,可以通过这两个案例来进一步了解。

案例一,内存UCE错误导致服务器系统反复宕机重启。服务器发生宕机重启,登录服务器的BMC管理界面,查询服务器的告警信息,出现如下告警:“2019-07-25 08:03:06 memory has a uncorrectable error.”后来,进一步查询硬件错误日志文件,发现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值