cAdvisor内存占用不断飙升导致其在k8s内不断crash的排查手记

背景

我们的额监控方案为:Kubernetes(K8S)+cAdvisor+Prometheus+Grafana。
然后,用cAdivor监控容器信息,其实,cAdivor其实到现在的主流K8S版本中,Kubelet进程已经将其内置了,但是我们没有这么用,因为没有必要因为让Prometheus定期去Kubelet上采集容器信息,平白增添对Kubelet的压力。相反,我觉得,还是应该还是应该单独部署cAdvisor,这样一来,不论是定制化cAdvisor,还是版本更新,都会更方面。所以,我使用DaemonSet部署了cAdvisor。

问题

用DaemonSet的方式部署cAdvisor,本质上,就是每个K8S的宿主机都启动了一个pod,实际观测,发现这些Pod的状态,会随着时间的推移,开始频繁出现Crash。这个问题,势必会导致cAdvisor无法正常监控容器信息。下面是具体的排查过程。

排查初探

首先,Pod Crash 必然有其原因,所以,一开始是通过下面的方式,看cAdvisor到底为何会Crash,通过

kubectl describe pod -n monitoring pod-xxxxx

找到Last State部分,发现其为:

State: OOMKilled

这说明,这个 Pod,是因为内存不够,cAdvisor在运行过程,超出了Pod的资源限制,被OOM杀掉了。既然资源不够,那么首先,就是调大其内存限制。

一开始为这个Pod设置的上限资源为1核CPU+1G内存,既然内存无法满足,那么调大为2G,继续观测,发现依然会OOM。然后又调整为3G、4G、10G、20G(机器内存大,土豪),发现虽然内存变大了会有一些缓解,但实际上,即使内存上限设置为20G,还是会有Crash的情况,那么,这时候就需要反思一下几个问题了:

  1. 是否是cAdvisor存在bug?
  2. 哪个机器上的cAdvisor Pod总是重启?
排查是否是cAdvisor版本问题

针对第一点,我们升级了cAdivor镜像为最新版,问题依旧。

排查是否是cAdvisor参数配置问题

google一些文章,有人提过类似的问题,官方issue的解释中,有人提到可能配置不对,可能采集的指标过多等,于是,我review了一下我的配置,调整后的完整配置如下:

apiVersion: extensions/v1beta1
kind: DaemonSet
metadata:
  labels:
    name: cadvisor
  name: cadvisor
  namespace: monitoring
spec:
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      name: cadvisor
  template:
    metadata:
      annotations:
        prometheus.io/port: "28762"
        prometheus.io/scrape: "true"
      creationTimestamp: null
      labels:
        name: cadvisor
    spec:
      automountServiceAccountToken: false
      containers:
      - args:
        - -allow_dynamic_housekeeping=true
        - -global_housekeeping_interval=1m0s
        - -housekeeping_interval=3s
        - -disable_metrics=udp,tcp,percpu,sched
        - -storage_duration=15s
        - -profiling=true
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
当使用WinForm开发应用程序时,如果不处理好内存管理,就可能会导致内存占用一直飙升。以下是可能导致这个问题的一些常见原因和解决方法: 1. 事件订阅问题:在WinForm中,由于事件的订阅引用了对象,如果没有正确地解除事件绑定,对象可能无法被垃圾回收,从而导致内存泄漏。解决方法是,在对象不再需要时,确保及时取消事件的订阅。 2. 大量创建和销毁对象:如果在循环或递归等操作中频繁创建和销毁对象,可能会导致内存占用一直上升。解决方法是尽量减少对象的创建和销毁,可以重用对象或使用对象池技术。 3. 图像资源处理不当:当在WinForm中加载和显示大量图像时,如果没有正确释放资源,可能会导致内存不断增长。解决方法是在不需要使用图像时及时释放资源,并使用Dispose方法释放相关资源。 4. 控件不正确释放:如果在WinForm中使用了大量控件,并且不正确地释放控件,可能会导致内存泄漏。解决方法是在不需要使用控件时,及时调用Dispose方法进行释放,并从父控件的Controls集合中移除该控件。 5. 过度使用全局变量:在WinForm中,如果滥用全局变量,可能会导致对象一直存在于内存中。解决方法是尽可能避免使用过多的全局变量,将变量的作用范围控制在合理的范围内。 总结起来,要解决WinForm开久了占用内存一直飙升的问题,需要注意正确处理事件订阅、对象的创建和销毁、图像资源的释放、控件的释放,以及全局变量的使用。及时释放不再使用的资源,以确保内存的正常管理和回收。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值