- 博客(14)
- 收藏
- 关注
原创 systemctl daemon-reload不生效排查
1.修改kubelet配置(/etc/systemd/system/kubelet.service)后需要重启,报错Warning: kubelet.service changed on disk. Run 'systemctl daemon-reload' to reload units.2.执行systemctl daemon-reload,未报错,然后执行systemctl restart kubelet,重启成功,但是依然报错Warning: kubelet.service changed on
2021-04-08 15:20:59 9886
原创 消息体大小问题导致kafka消费者消费阻塞
问题:生产环境使用kafka进行双活机房redis集群数据同步,某天收到双机房redis集群数据量不一致的告警,对同步情况进行排查,发现对端机房被同步的topic有大量消息堆积,使用kafdrop查看分区数据消费情况,发现大部分分区消费正常,堆积很少,少量分区堆积巨大,offset不再更新,被阻塞了。分析:查看consumer测日志,发现大量打印以下错误日志"ERROR: C...
2020-03-23 19:51:51 578
原创 Redis老rdb文件产生脏数据
背景:机房级掉电演练,机房1的Redis集群被下电,现网集群没有开启持久化,靠双活机房数据实时同步做数据可靠性方案,机房1的集群恢复后,需要先恢复机房2到机房1的实时同步(增量),然后通过脚本执行存量数据全量同步,由于机房1为空集群,所以为了提升全量数据同步性能,一般不要求加--replace参数,即对端已有数据会被丢弃不同步。问题:机房1主集群数据恢复后,业务请求从机房2的Redis...
2020-03-23 19:48:33 275 1
原创 redis主机软中断均衡
背景:1.redis集群从IDC机房迁移至公有云;2.该集群业务访问量大,峰值超过200万TPS,节点CPU使用率偏大;问题:凌晨变更对接公有云集群之后,次日白天监控发现redis节点平均CPU使用率(avgcpu)从30%增长到40%,节点最大CPU使用率(maxcpu)峰值能达到98%,与IDC相比差异较大,IDC为(avgcpu:30%,maxcpu:50-60%,由于...
2020-03-23 19:45:56 167
原创 oom killer日志分析
早上发现一台业务机器业务运行异常,登陆检查发现crond服务停止[root@hostname~]# systemctl status crond* crond.service - Command Scheduler Loaded: loaded (/usr/lib/systemd/system/crond.service; enabled; vendor preset: enable...
2020-03-23 19:19:29 3185
原创 kafka集群under replicated分析
近期随着业务消息量增大,现网几套kafka集群频繁收到underrepliacted告警,集合近期定位分析过程,主要有以下几个方面:1.查看是否有主机挂掉,或近期是否有主机重启,通过kafdrop查看started时间,若有异常重启,需要分析日志定位原因;2.使用kafdrop可以对分区副本情况进行排查,若发现大部分underreplicated的分区都与某个broker上的副本有...
2019-10-15 16:29:14 1445
原创 systemctl方式开机启动进程文件句柄数问题
现网近期发现一台业务主机进程频繁挂掉,然后会被watchdog自动拉起,运行一小段时间后又挂掉,不断重新启动,排查日志发现"Too many open files" ,打开文件数量超过文件句柄数了。使用ulimit -a检查,配置的open files数量为100万,查看/etc/system.conf里面的fs.file-max=999999,ulimit检查是单进程允许打开文件数,syst...
2019-10-15 16:26:41 1035 1
原创 redis集群set-max-intset-entries引起的内存异常增长问题
某天晚上突然收到redis集群内存使用率超过80%的告警,观察内存使用率曲线,发现该集群内存相对平稳,之前一直维持在70%左右,遂申请新机器进行扩容,新节点添加完成之后,集群整体内存使用率降至50%,但是由于集群本身数据量巨大,集群内部数据迁移需要较长时间。数据迁移一直持续到次日下午还没完成,此时已经有不少节点没来得及迁移数据使用率已经超过90%了,整体内存也又出现了高于80%的告警,且数据量...
2019-10-15 16:25:37 778
原创 mac忘记mysql密码解决方案
mysql-5.7.28默认安装路径/usr/local/mysql1. 关闭mysql进程sudo /usr/local/mysql/support-files/mysql.server stop2. 使用--skip-grant-tables方式启动mysqlsudo /usr/local/mysql/support-files/mysql.server start...
2019-10-14 20:26:24 143
原创 CentOS系统磁盘,文件系统问题
主机硬盘规格:12*4T SATA, 2*300G SAS业务部署前先进行主机初始化,执行初始化脚本,其中包括配置软件raid,使用12块SATA盘做raid10,初始化完成之后登陆检查,发现本该22T的raid10分区,只有1.8T,使用lsblk查看,发现其中一块/dev/sdc只有300G,又温故了一下raid10的逻辑,根据木桶短板原理,即所有12块磁盘都最多使用300G,这样12*3...
2019-09-19 15:50:42 545
原创 zookeeper权限管理
一个zookeeper节点中不仅包含了存储的数据,还有 ACL(Access Control List)。节点创建时,可以给它设置一个ACL,来决定谁可以对节点做哪些操作。ACL 具有以下特点:1. ZooKeeper的权限控制是基于每个znode节点的,需要对每个节点设置权限2. 每个znode支持设置多种权限控制方案和多个权限3. 子节点不会继承父节点的权限,客户端无权访问某节点,...
2019-08-25 01:59:42 962
原创 kafka分区消息量不均衡
如果一条写入到topic的消息同时包含key value,且使用默认的分区器,那么kafka会对key进行hash,然后根据散列值把消息映射到特定的分区,同一个key总是会被写入相同的分区。现网收到kafka主机磁盘空间不足的告警,登录主机df -h检查发现10块磁盘大部分使用率都在50%以下,只有一块磁盘使用率超过80%,相差一倍有余,怀疑是特定消息写入频繁,使用kafdrop的view m...
2019-03-24 14:49:43 8075
原创 iptables开启导致kafka生产者消息发送失败
近期部门有几个业务接连反馈producer消息发送时收到错误日志:The server disconnected before a response was received/WARN - Error in I/O with /XXXX(kafka主机)/java.io.IOException: Connection reset by peer,伴随有部分消息发送失败,影响终端用户体验,结合...
2018-07-29 23:35:38 2195
原创 kafka消费者连接topic分区失败造成消息大量堆积
晚上7点收到topic堆积告警,经检查,发现消费者到topic分区断连,分区覆盖率下降为0,由于业务TPS高,所以几分钟内即形成上千万条消息堆积,业务成功率下降明显,第一时间怀疑晚上高峰期业务量大,带宽消耗大,网络不稳定造成的,所以第一时间增加消费方的超时时间(socket.timeout.ms)并重启,消费者随即连接成功,重新开始消费,堆积逐渐减小,业务逐渐恢复。但一周不到再次出现同样的问题...
2018-07-29 18:14:02 5038
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人