AWS EKS在生产使用中遇到的错误整理(持续更新)

本文总结了在AWS EKS生产环境中遇到的常见问题,包括创建ALB错误(RBAC授权和子网标签)、eksctl获取nodeGroup错误、主频问题(AMD CPU的动态主频)以及Pod挂载EFS错误(安装、权限和CSI驱动问题),并提供了详细的排查和解决方法。
摘要由CSDN通过智能技术生成

通用排查

集群整体日志收集脚本,通过以下脚本可以收集集群的运行日志,可以从日志中排查错误

curl -O https://raw.githubusercontent.com/awslabs/amazon-eks-ami/master/log-collector-script/linux/eks-log-collector.sh
sudo bash eks-log-collector.sh

一、创建ALB出错

错误一

configmaps "aws-load-balancer-controller-leader" is for bidden: User "system:serviceaccount:kube-system:aws-load-balancer-controller" cannot get resource "configmaps" in API group "" in the namespce "kube-system": RBAC: role.rbac.authorization.k8s.io "aws-load-balancer-controller-leader-election-role" not found

从错误可以看出,RBAC授权的问题。

排查思路

  1. 检查IAM Role有没有正确绑定到集群
  2. 检查集群对应SA有没有授予正确的集群权限
  3. 检查集群Role有没有正确的权限

参考文档:https://docs.aws.amazon.com/zh_cn/eks/latest/userguide/aws-load-balancer-controller.html

错误二

"msg": "Reconciler error",..."error":"couldn't auto-discover subnets: unable to discover at least one subnet"

从错误看出,无法自动发现子网

子网没有相应的集群标签

解决方法

  1. 子网添加集群标签https://kubernetes-sigs.github.io/aws-load-balancer-controller/v2.3/deploy/subnet_discovery/
  2. yaml文件添加子网Annotationsalb.ingress.kubernetes.io/subnets: sub-xxx,sub-xxx

二、eksctl get nodeGroup出错

$ eksctl get nodegroup --cluster  cluster-name --region ap-southeast-1 
2021-12-07 16:27:54 []  eksctl version 0.75.0
2021-12-07 16:27:54 []  using region ap-southeast-1
2021-12-07 16:27:56 [!]  retryable error (Throttling: Rate exceeded
 status code: 400, request id: abbd7fb9-4333-485b-8145-0863d6ba1321) from cloudformation/DescribeStacks - will retry after delay of 9.81369948s
2021-12-07 
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值