![](https://img-blog.csdnimg.cn/direct/0ed710eceb904f319567f28153322dc8.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
生产问题排查
文章平均质量分 95
线上遇到的问题排查思路
存在morning
乐于了解新技术,善于复盘总结,不是很聪明,但能够持续进步。
展开
-
【生产问题排查 一】Spring中事务传播的问题排查
照例总结一下,在单一的数据操作方法不要加事务,事务应该是一系列操作指令的聚合,添加了细粒度的事务可能会导致上层使用者在方法添加事务时使用了错误的传播机制。如果内外层的方法都很复杂,则基于自己的预期进行考虑,如果不希望内层方法影响外层方法,可以使用异常捕获加内层事务的REQUIRES_NEW传播机制解决。需要注意的是Spring的事务是基于AOP实现的,所以对象内部方法调用,不会通过Spring代理,也就是事务不会起作用,这点也非常重要。原创 2023-08-06 17:53:46 · 1161 阅读 · 3 评论 -
【生产问题排查 二】一次内存泄露排查-MAT使用指南
照例总结一下,线上出了问题不要慌,也别想着保留现场,先止损!平时的报警机制要建立好且阈值要低些,这样才能先于业务发现并解决问题。还有就是MAT是真香!原创 2023-08-08 23:42:48 · 1519 阅读 · 1 评论 -
【生产问题排查 三】Kafka消费者消费堆积且频繁rebalance
照例总结一下,虽然基础服务的一些中间件一般都由基础架构部门维护,但还是要对这些中间件的配置和使用要有所了解,这样出了问题才能快速定位问题、解决问题,避免影响线上稳定性。原创 2023-08-10 00:39:22 · 1779 阅读 · 0 评论 -
【生产问题排查 四】线上如何排查CPU100%的情况
当我们把服务发布到服务器器,可能会因为一些问题造成我们的服务器CPU被打满甚至超过100%,那如果我们想知道到底上在做什么操作导致CPU持续过高呢?因为在线上只能通过日志看问题,或者排查到哪个进程或者哪个线程持续占用CPU。然后才能找到具体问题在哪里才能进行解决,具体排查过程。原创 2024-03-25 22:48:45 · 760 阅读 · 0 评论