服务器硬件故障

服务器硬件故障

(1)硬件故障对业务产生影响还是很少的。

硬件故障认识
(1)经常性的宕机

(2)系统下操作非常的卡顿(一般是cpu有问题)

(3)数据错误或丢失

常见的故障类型
cpu
cpu\内存、硬盘、raid卡、电源

cpu故障:会发生系统重启、系统宕机

cat /proc/cpuinfo :查看cpu状态

cpupower frequency -info:开启cpu大电量模式

内存
CE:可修复,无感知

UCE:不可修复,无感知

无感知的宕机或重启。

ipmitool sel list :查看内存状态日志

硬盘
raid0卡:没有冗余

raid1:2个100G只看到100G,有备份

raid卡是有电源的,若电源没电了,raid卡的缓存数据会丢失。直接写硬盘,速度慢。

百度的raid卡是,机器电池没电了,强行开启缓存。

没有raid卡,盘坏了,检测不到硬盘故障。

只要不断电,程序宕机,raid会马上写入到磁盘中。

电源
电源一般是双电路,具有冗余。

风扇:给cpu降温,cpu的温度一般是70到80度。

故障信息
smart信息:一般厂商不会对外开放。

smart信息开发的成本非常大。

贝叶斯、马尔科夫是在获取不到smart信息的情况下根据机器以往的情况对机器做一个预判。

总结
1、业务侧要做好冗余

2、故障判断准确

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值