所长是我呦-CSDN博客

原创 systemctl daemon-reload不生效排查

1.修改kubelet配置（/etc/systemd/system/kubelet.service）后需要重启，报错Warning: kubelet.service changed on disk. Run 'systemctl daemon-reload' to reload units.2.执行systemctl daemon-reload，未报错，然后执行systemctl restart kubelet，重启成功，但是依然报错Warning: kubelet.service changed on

2021-04-08 15:20:59 10955

原创消息体大小问题导致kafka消费者消费阻塞

问题：生产环境使用kafka进行双活机房redis集群数据同步，某天收到双机房redis集群数据量不一致的告警，对同步情况进行排查，发现对端机房被同步的topic有大量消息堆积，使用kafdrop查看分区数据消费情况，发现大部分分区消费正常，堆积很少，少量分区堆积巨大，offset不再更新，被阻塞了。分析：查看consumer测日志，发现大量打印以下错误日志"ERROR: C...

2020-03-23 19:51:51 706

原创 Redis老rdb文件产生脏数据

背景：机房级掉电演练，机房1的Redis集群被下电，现网集群没有开启持久化，靠双活机房数据实时同步做数据可靠性方案，机房1的集群恢复后，需要先恢复机房2到机房1的实时同步（增量），然后通过脚本执行存量数据全量同步，由于机房1为空集群，所以为了提升全量数据同步性能，一般不要求加--replace参数，即对端已有数据会被丢弃不同步。问题：机房1主集群数据恢复后，业务请求从机房2的Redis...

2020-03-23 19:48:33 335 1

原创 redis主机软中断均衡

背景：1.redis集群从IDC机房迁移至公有云；2.该集群业务访问量大，峰值超过200万TPS，节点CPU使用率偏大；问题：凌晨变更对接公有云集群之后，次日白天监控发现redis节点平均CPU使用率（avgcpu）从30%增长到40%，节点最大CPU使用率（maxcpu）峰值能达到98%，与IDC相比差异较大，IDC为（avgcpu：30%，maxcpu：50-60%，由于...

2020-03-23 19:45:56 227

原创 oom killer日志分析

早上发现一台业务机器业务运行异常，登陆检查发现crond服务停止[root@hostname~]# systemctl status crond* crond.service - Command Scheduler Loaded: loaded (/usr/lib/systemd/system/crond.service; enabled; vendor preset: enable...

2020-03-23 19:19:29 3463

原创 kafka集群under replicated分析

近期随着业务消息量增大，现网几套kafka集群频繁收到underrepliacted告警，集合近期定位分析过程，主要有以下几个方面：1.查看是否有主机挂掉，或近期是否有主机重启，通过kafdrop查看started时间，若有异常重启，需要分析日志定位原因；2.使用kafdrop可以对分区副本情况进行排查，若发现大部分underreplicated的分区都与某个broker上的副本有...

2019-10-15 16:29:14 1568

原创 systemctl方式开机启动进程文件句柄数问题

现网近期发现一台业务主机进程频繁挂掉，然后会被watchdog自动拉起，运行一小段时间后又挂掉，不断重新启动，排查日志发现"Too many open files" ，打开文件数量超过文件句柄数了。使用ulimit -a检查，配置的open files数量为100万，查看/etc/system.conf里面的fs.file-max=999999，ulimit检查是单进程允许打开文件数，syst...

2019-10-15 16:26:41 1230 1

原创 redis集群set-max-intset-entries引起的内存异常增长问题

某天晚上突然收到redis集群内存使用率超过80%的告警，观察内存使用率曲线，发现该集群内存相对平稳，之前一直维持在70%左右，遂申请新机器进行扩容，新节点添加完成之后，集群整体内存使用率降至50%，但是由于集群本身数据量巨大，集群内部数据迁移需要较长时间。数据迁移一直持续到次日下午还没完成，此时已经有不少节点没来得及迁移数据使用率已经超过90%了，整体内存也又出现了高于80%的告警，且数据量...

2019-10-15 16:25:37 913

原创 mac忘记mysql密码解决方案

mysql-5.7.28默认安装路径/usr/local/mysql1. 关闭mysql进程sudo /usr/local/mysql/support-files/mysql.server stop2. 使用--skip-grant-tables方式启动mysqlsudo /usr/local/mysql/support-files/mysql.server start...

2019-10-14 20:26:24 185

原创 CentOS系统磁盘，文件系统问题

主机硬盘规格：12*4T SATA, 2*300G SAS业务部署前先进行主机初始化，执行初始化脚本，其中包括配置软件raid，使用12块SATA盘做raid10，初始化完成之后登陆检查，发现本该22T的raid10分区，只有1.8T，使用lsblk查看，发现其中一块/dev/sdc只有300G，又温故了一下raid10的逻辑，根据木桶短板原理，即所有12块磁盘都最多使用300G，这样12*3...

2019-09-19 15:50:42 603

原创 zookeeper权限管理

一个zookeeper节点中不仅包含了存储的数据，还有 ACL（Access Control List）。节点创建时，可以给它设置一个ACL，来决定谁可以对节点做哪些操作。ACL 具有以下特点：1. ZooKeeper的权限控制是基于每个znode节点的，需要对每个节点设置权限2. 每个znode支持设置多种权限控制方案和多个权限3. 子节点不会继承父节点的权限，客户端无权访问某节点，...

2019-08-25 01:59:42 1085

原创 kafka分区消息量不均衡

如果一条写入到topic的消息同时包含key value，且使用默认的分区器，那么kafka会对key进行hash，然后根据散列值把消息映射到特定的分区，同一个key总是会被写入相同的分区。现网收到kafka主机磁盘空间不足的告警，登录主机df -h检查发现10块磁盘大部分使用率都在50%以下，只有一块磁盘使用率超过80%，相差一倍有余，怀疑是特定消息写入频繁，使用kafdrop的view m...

2019-03-24 14:49:43 8240

原创 iptables开启导致kafka生产者消息发送失败

近期部门有几个业务接连反馈producer消息发送时收到错误日志：The server disconnected before a response was received/WARN - Error in I/O with /XXXX(kafka主机)/java.io.IOException: Connection reset by peer，伴随有部分消息发送失败，影响终端用户体验，结合...

2018-07-29 23:35:38 2360

原创 kafka消费者连接topic分区失败造成消息大量堆积

晚上7点收到topic堆积告警，经检查，发现消费者到topic分区断连，分区覆盖率下降为0，由于业务TPS高，所以几分钟内即形成上千万条消息堆积，业务成功率下降明显，第一时间怀疑晚上高峰期业务量大，带宽消耗大，网络不稳定造成的，所以第一时间增加消费方的超时时间（socket.timeout.ms）并重启，消费者随即连接成功，重新开始消费，堆积逐渐减小，业务逐渐恢复。但一周不到再次出现同样的问题...

2018-07-29 18:14:02 5305

ggh5201314的博客