CPU标高load标高;linux故障日志排查

        一般情况下,服务器不太会出问题。但是遇到特别诡异的情况,多半是服务器本身的问题。遇到问题,我们不能一味的去排查应用,中间件。更应该想到服务器的问题。否则很容易出现南辕北辙的情况。
        这次分享的是一次服务器故障,导致的线上问题。涉及到了服务器的内存的排查,和CPU的排查。

现象:  

线上es集群突然报警。本来一个机器上两个节点,但是在早晨6点48分,突然cpu飙升到100,期间没有什么查询,正常量的写入。

关闭一个节点以后,负载正常,但是再启动节点,集群负载还是很高。

请求命中此台机器,触发了很多的慢查询告警 。

该节点 gc的时间特别长

[2023-11-21T11:36:38,263][WARN ][o.e.m.j.JvmGcMonitorService] [10.99.100.98] [gc][young][1279][13] duration [2.4s], collections [1]/[2.5s], total [2.4s]/[44.4s], memory [2.9gb]->[1.4gb]/[31.9gb], all_pools {[young] [1.5gb]->[0b]/[0b]}{[old] [1.3gb]->[1.3gb]/[31.9gb]}{[survivor] [52.5mb]->[32.3mb]/[0b]}
[2023-11-21T11:36:38,274][WARN ][o.e.m.j.JvmGcMonitorService] [10.99.100.98] [gc][1279] overhead, spent [2.4s] collecting in the last [2.5s]

监控如下,可以看出来CPU飙升

同时间段其它机器的监控

排查linux日志 

grep -i cpu /var/log/messages

使用 dmesg 命令可以查看内核环缓冲区的内容,其中包含了系统启动时和运行时的信息,包括一些硬件错误。查看排查cup问题。

dmesg | grep -i cpu

[11215201.664127] CPU20: Package temperature above threshold, cpu clock throttled (total events = 1493)
[11215201.664168] CPU56: Package temperature above threshold, cpu clock throttled (total events = 1493)
这里是cpu过热保护发生的次数

[20227904.755122] EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
[20227904.755820] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:slot:page:0x7c960e offset:0xdc0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:imc:rank:bg:ba:row:0x1d4a9 col:0x2d8)

dmesg | grep -i memory

查看排查内存问题

[20227904.755121] EDAC skx MC0: HANDLING MCE MEMORY ERROR
[20227904.755820] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:slot:page:0x7c960e offset:0xdc0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:imc:rank:bg:ba:row:0x1d4a9 col:0x2d8)

section_type: memory error 表示这是一个内存错误。

EDAC skx MC0 表示这是与 EDAC(Error Detection and Correction)相关的信息。

HANDLING MCE MEMORY ERROR 指示系统正在处理一个 MCE(Machine Check Exception)的内存错误。

EDAC MC0: 0 CE memory read error 表示这是一个可纠正的内存读取错误。

CPU_SrcID#0_MC#0_Chan#0_DIMM#0 提供了有关错误位置的详细信息,指明了错误发生在第一个 CPU(CPU 0)的第一个内存通道(channel 0)的第一个 DIMM(DIMM 0)。

channel:0 slot:0 指示错误发生在通道 0 的插槽 0。

page:0x7c960e offset:0xdc0 提供了错误地址的详细信息,包括页面、偏移。

syndrome:0x0 表示错误的纠错码。

err_code:0x0000:0x009f 提供了错误代码,这里指示了一个 CE(Correctable Error)错误。

socket:0 imc:0 rank:1 bg:1 ba:0 row:0x1d4a9 col:0x2d8 提供了更详细的关于错误位置的信息,包括套接字、内存控制器、rank、bank、行和列。

这里有一篇参考文

和我遇到的现象一样。可能是内存有问题

Linux服务器EDAC CE memory read error - 简书

故障处理

结合监控信息,我最先想到的是的服务器存在问题。于是就检查了内存和cpu。从排查的信息来看,多半是硬件存在问题。于是联系运维,与机房人员。由于是数据集群,先把服务器上的数据迁移到别的机器上,然后做重启操作。结果发现服务器起不开了,厂商的人过来升级了固件版本,做了修复。然后观察了两天,没有再发现系统异常日志。重新加回集群。我们这次遇到的不算是内存条有问题。但是也属于服务器故障,导致的应用故障。

  • 28
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CAD提取坐标及标高插件是一种在计算机辅助设计软件中使用的工具,旨在帮助用户快速准确地提取图形中的坐标和标高信息。 CAD软件通常用于制图、设计和建模,而CAD提取坐标及标高插件则可以在这个过程中起到辅助的作用。这些插件可以自动识别图形中的节点和线段,并提取其对应的坐标和标高数据。用户只需简单地选择需要提取信息的图形,插件即可实时计算并显示所需的数据。 使用CAD提取坐标及标高插件的好处是显而易见的。首先,它可以大大提高设计师和工程师的工作效率,节省宝贵的时间。传统方法下,提取坐标和标高需要手动测量和计算,耗时且容易出错。而插件则能够以更快的速度准确地提取所需的数据,使工作流程更加流畅。 其次,CAD提取坐标及标高插件还可以帮助用户减少错误和误差。使用插件进行自动提取可以避免由手动操作引起的疏忽和不准确。插件的计算精确性确保了提取的坐标和标高数据的准确性,从而提高了设计的质量和可靠性。 此外,CAD提取坐标及标高插件还具有一定的灵活性和可定制性。用户可以根据项目的需求和要求设置插件的参数和选项,以满足个性化的应用场景。插件还可以与其他CAD工具和功能集成,提供更加全面的设计解决方案。 总的来说,CAD提取坐标及标高插件是一种有益于CAD软件使用者的工具。它通过自动提取图形中的坐标和标高数据,提高了工作效率、减少了错误和误差,并具有灵活和可定制的特点。CAD提取坐标及标高插件将在设计和建模过程中发挥重要的作用,为用户提供更好的设计体验和结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值