Tech Talk · 云技术有话聊 | 关键基础部件如何保障高可靠？

信服云

已于 2022-05-05 15:24:15 修改

阅读量953

点赞数

分类专栏： Tech Talk · 云技术有话聊文章标签：服务器

于 2022-04-15 11:19:01 首次发布

本文链接：https://blog.csdn.net/qq_43622568/article/details/124190710

版权

4月14日，信服云可靠性技术专家Marshall在信服云《Tech Talk · 云技术有话聊》系列直播课上进行了《关键基础部件可靠性技术解析》的分享，详细介绍了 IT系统常见的物理故障对业务的可靠性的影响、如何运用软件定义解决硬件故障等内容。以下是他分享的内容摘要，想要了解更多可以关注“深信服科技”公众号回顾本期直播。

一、可靠性的定义和目标
可靠性是指系统不会意外地崩溃、重启甚至发生数据丢失，这意味着一个可靠的系统必须能够做到故障自修复，对于无法自修复的故障也尽可能进行隔离，保障系统其余部分正常运转。简而言之，可靠性的目标是缩短因故障（产品质量、外部部件、环境、人因等）造成的业务中断时间。

高可靠可以从三个层面理解：一，不出故障，系统可以一直正常运行，这种情况就需要提高硬件的研发质量。二，故障不影响业务。三，影响业务但能快速恢复。后两个层面可以通过“软件定义”的方式去规避硬件故障产生的业务中断。

谈到可靠性，首先要了解服务器的关键基础部件。从业界的服务器统计数据看，硬件部件的问题集中在内存、硬盘、CPU、主板、电源、网卡上。在云的环境当中，同一台服务器上可能运行了若干不同业务、不同场景的虚拟机，一旦物理设备崩溃，将会波及众多用户，同时也会对运营商自身造成巨大损失。而在现有的故障模式中，内存、硬盘故障是最高发和最严重故障。

关于内存和硬盘的故障，可以通过这两个案例来进一步了解。

案例一，内存UCE错误导致服务器系统反复宕机重启。服务器发生宕机重启，登录服务器的BMC管理界面，查询服务器的告警信息，出现如下告警：“2019-07-25 08:03:06 memory has a uncorrectable error.”后来，进一步查询硬件错误日志文件，发现

最低0.47元/天解锁文章

信服云

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Tech Talk · 云技术有话聊 | 关键基础部件如何保障高可靠？

4月14日，信服云可靠性技术专家Marshall在信服云《Tech Talk · 云技术有话聊》系列直播课上进行了《关键基础部件可靠性技术解析》的分享，详细介绍了 IT系统常见的物理故障对业务的可靠性的影响、如何运用软件定义解决硬件故障等内容。以下是他分享的内容摘要，想要了解更多可以点击阅读原文观看直播回放。一、可靠性的定义和目标可靠性是指系统不会意外地崩溃、重启甚至发生数据丢失，这意味着一个可靠的系统必须能够做到故障自修复，对于无法自修复的故障也尽可能进行隔离，保障系统其余部分正常运转。简而言之，可靠
复制链接

扫一扫

专栏目录