线上事故
wangneng_168
这个作者很懒,什么都没留下…
展开
-
生产环境遇到的rabbitmq队列堆积原因分析和解决方案
在8月5、6、7连续三天晚上10点出现充值相关几个消息堆积的问题,经过分析发现主要问题是充值项目对mq的使用存在一些不合理的地方,当mq负载高时会出现堆积现象。具体原因如下: 1、采用的消息模式是get模式,而不是高效的deliver模式,经过在新搭建的mq服务器测试发现,get模式:5000条/秒便会出现严重堆积, deliver模式:20000条/秒不会堆积,如果按照充值...原创 2014-09-22 19:07:17 · 8146 阅读 · 2 评论 -
通过日志实现简单的服务监控与快速问题定位
生产系统出的问题中,请求响应慢是很常见的问题,如何快速定位慢的源头非常重要,通过对之前遇到的问题总结,发现一般都是依赖服务慢或者出现线程阻塞导致,对于这两种问题简单有效的定位方法如下: 1、打印超过阀值的依赖服务访问时长到日志,通过日志定位 2、使用java的jstack命令查看java线程是否阻塞 其中简单介绍一下如何利用日志定位问题: 对每个...原创 2014-11-06 14:48:11 · 524 阅读 · 0 评论 -
linux的oom killer导致memcached服务下线
公司部分项目是用python实现的,由于python的内存泄露问题,每两天凌晨均会重启一次python服务,有一次在业务高峰期,python服务的内存大增,导致操作系统的free memory低于/proc/sys/vm/min_free_kbytes设置的值,触发了linux的oom killer,由于在该python服务器上部署有memcached服务,在oom killer的算法下...原创 2014-11-06 15:58:38 · 253 阅读 · 0 评论 -
快速解决在线服务慢问题的工作流程
快速解决线上系统问题,对于公司可减少损失,对于相关技术人员,可改善睡眠原创 2014-11-06 16:30:15 · 287 阅读 · 0 评论 -
CDN回源率高导致机房出口带宽翻倍
前几天感恩节,发现公司机房出口带宽增长1倍,经过排查发现是提供图书下载的服务器输出流量大增,查看源码,定位到问题: 走CDN的下载接口中带有机型、渠道、版本等参数,而这些参数的组合场景可达到百万级,从而导致大量的请求穿透,而感恩节的运营策略是重点推精品书,每天会有免费,而一本精品书可以达到几十M大小,对于一本精品书可能就会有n多请求回源到程序机房,严重浪费机房带宽,1年的损失相当大(至...原创 2014-11-29 17:03:10 · 525 阅读 · 0 评论