TakinTalks稳定性社区-CSDN博客

原创 test

我们重构了从监控数据的采集、处理到报警通知的整个流程，并建立了一个统一的监控平台。我们的主监控链路以红色标识，形成了新的系统核心，而原有的、现逐步淘汰的旧系统则以黑色表示。这次改造显著提升了从指标的统一性到轻量级存储方案的效率，降低了日志分类和存储成本，并聚合了Source、Trace、APM、Log等多样化的监控数据，实现了告警的统一处理。我们已经摆脱了依赖于Alertmanager的告警机制，转而使用了自主开发的告警系统，并对开源的报警工具进行了二次开发以满足我们的需求。监控的分类也已经大致完成。

2024-04-15 15:52:52 867

原创定位时长缩减90%：酷家乐如何提升系统故障根因分析准确率？

酷家乐监控负责人——少丰TakinTalks稳定性社区专家团成员，酷家乐监控负责人、技术专家。主要专注稳定性保障、新一代监控系统的研发工作。此前在诺基亚工作十年，先后参与和负责过诺基亚运营商通信系统、创新业务、基础设施架构、新一代Dev0ps平台方面的工作。温馨提醒：本文约6500字，预计花费12分钟阅读。TakinTalks稳定性社区后台回复 “交流” 进入读者交流群；回复“Q102”获取课件；2.2 图 - 魔方语言系统架构。

2024-03-28 15:58:44 493

原创日志资源成本减少 35%：新东方可观测体系改造如何降本增效？

TakinTalks稳定性社区专家团成员，新东方教育科技集团高级经理，SRE负责人。负责新东方全集团内业务运维保障工作。对保障SLA稳定性、可观测体系、云原生架构服务体系进行探索及落地，以平台化、标准化为理念完成降本、增效、安全的目标。

2024-01-25 14:31:42 1020

原创货拉拉智能监控实践：如何解决多云架构下的故障应急问题？

货拉拉监控平台负责人——柯圣TakinTalks 稳定性社区专家团成员，货拉拉监控平台负责人。曾任职于携程、饿了么的核心中间件团队，深入参与多个自研日志平台、监控平台、时序数据库等系統的研发，深耕可观测性领域近 10 年。目前在货拉拉技术中心负责整体监控体系与监控平台建设。温馨提醒：本文约 7500 字，预计花费 12 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群；回复“1221”获取课件；

2024-01-11 18:07:08 1354

原创 15 万字稳定性提升经验：《2023 下半年最佳实践合集》限量申领！

数字业务连续性最佳实践》一书深入探讨了数字化时代下业务连续性的核心问题，结合丰富的案例和实践经验，为您提供了全方位的最实用的方法和最佳的实践，专业性和实用性都非常高，是一本指导您在数字化时代保持业务连续性的必备指南！自从加入 TakinTalks 社区以来，与各位深受系统稳定性折磨的同行者一起，分享我们的经验教训和最佳实践，正如本书作者所述的那样，从战术到策略，系统性地给大家提供了参照物和手册，相信大家一起可以从基础的事情做起，共同提升中国软件公司的系统治理水平。进入榜单者，可获赠 1 本。

2024-01-09 11:58:15 640

原创 Prometheus+Grafana：转转如何打造开箱即用的一体化监控系统？

转转存储服务负责人——苑冲TakinTalks稳定性社区专家团成员，转转存储服务负责人，负责消息中间件（MQ）、键值（KV）存储、Redis、监控系统、KMS凭据管理系统、短信服务等。温馨提醒：本文约7000字，预计花费10分钟阅读。后台回复 “交流” 进入读者交流群；回复“1214”获取课件；首先，在架构方面，我们采取了服务直接使用Push模式推送数据到M3DB，而中间件则使用Pull模式，通过Prometheus HTTP服务发现机制来实现。

2023-12-28 17:56:10 1261

原创如何做到人均告警减少 90%？B 站新一代告警平台的设计与实践

哔哩哔哩资深开发工程师——王程田TakinTalks 稳定性社区专家团成员，哔哩哔哩资深开发工程师。2020 年加入 B 站先后负责事件平台，链路追踪，AIOps 及告警平台方向技术演进 &平台迭代。完成了新一代告警平台落地，达成了 99 分位一分钟内的异常端到端发现，实现了人均告警从每周 1000+条/人到 70+条/人告警治理上的突破。温馨提醒：本文约 6000 字，预计花费 8 分钟阅读。TakinTalks稳定性社区后台回复 “交流” 进入读者交流群；回复“1130”获取课件；

2023-12-15 14:06:46 1234

原创去哪儿如何实现故障率降低 65%？技术 + 管理的数字化度量体系实践

去哪儿网基础研发产品总监——陈靖贤TakinTalks 稳定性社区专家团成员，去哪儿网基础研发产品总监。2013 年加入去哪儿网，曾任职于摩托罗拉、索尼移动通信。多年来深耕于 DevOps、研发效能领域，致力于公司内部 DevOps 实践的落地实施，研发与交付流程的优化，工程效率平台工具的建设与推广，覆盖开发、测试、交付、运维研发生命周期全流程。全面系统提升研发效能，助力业务发展。温馨提醒：本文约 7000 字，预计花费 10 分钟阅读。

2023-12-07 15:52:40 1025

原创七年 4 个阶段：滴滴可观测架构演进与实践

在降低存储成本方面，VM 的表现较好，在我们的环境测试中，其存储成本只有 RRDTool 的 1/20 左右。同时，可观测性中的读写是正交的，读写优化存在冲突——写通常是所有曲线写入最新的部分，而读通常是读取多条曲线或某条曲线长时间的数据。在数据传输方面，我们的设计理念也是类似的，但有一点区别在于，传输和存储会用到不同的分片策略，这是因为它们的负载特性不同。例如，某个业务的传输量非常大，但存储查询的量却非常小，这种情况下，我们会在传输端对数据进行拆分，在存储端只需要保证数据的写入即可。

2023-12-01 14:49:37 7642

原创去哪儿“技术债”偿还实践：如何高效、低风险砍掉50%无用代码?

最后，我想用一张图来做个总结。“给我一个 API，我就能减少一半的代码”。这句话主要是想引导大家进行深思，底层技术虽然可能看起来比较枯燥或者无趣，但其所能带来的价值却无比巨大。回顾整个项目，我们投入了大量的人力资源，涉及了诸多团队，最终成功减少了数千万行的线上代码。从技术角度来看，核心技术仅是使用了一个 JVM 工具的 API。然而从业务角度来看，这直接影响到了公司的服务质量、用户体验，乃至整个公司的效率和运营成本。

2023-12-01 11:59:44 1143

原创故障发现、定位提效超 70%，去哪儿可观测体系做了哪些优化？

去哪儿网基础架构技术 TL——肖双TakinTalks 稳定性社区专家团成员。2018 年加入去哪儿网，目前负责去哪儿网 CI/CD、监控平台和云原生相关平台建设。期间负责落地了去哪儿网容器化平台建设，协助业务线大规模应用迁移至容器平台，完成监控系统 Watcher2.0 的改造升级和根因分析系统落地。对监控告警、CI/CD、DevOps 有深入的理解和实践经验。温馨提醒：本文约 7500 字，预计花费 12 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群；

2023-11-17 15:50:35 446

原创 APM建设踩了哪些坑？去哪儿旅行分布式链路追踪系统实践

在构建整个APM体系过程中，三个主要组件：日志收集组件、传输链路治理以及Flink任务性能优化。日志收集组件和传输链路治理主要解决日志大流量和并发的问题。在日志组件中，关注内部和外部内存的限制。在传输层，关注任务调度和集群性能优化。最后，分析了APM系统的价值和意义。每家企业都建设自己的APM系统，同时更需要深入挖掘其价值。APM系统的真正意义在于能够通过数据客观深入了解系统的性能。通过APM系统，可以优化系统的性能、提高用户体验、减少故障和降低潜在风险。

2023-11-03 16:20:59 1276

原创 “1-5-15”原则：中国联通数字化监控平台可观测稳定性保障实践

我们在各个数据中心和应用中进行整体的埋点，通过标识出不同的租户和系统间的关系，进行跨数据中心的分布式计算。当我们发现开户业务出现报错时，利用图数据库关系，从150个服务告警中，定位到是服务X出了问题，继续通过核密度估计算法和DBSCAN聚类算法，判定该服务的3个实例中，是实例x3出现了问题。因此，有了这样的关联，可以通过指标发现问题，通过链路定位问题，并通过报文和日志判断问题的根因。例如，针对MySQL出现的采集情况，只需要用户输入MySQL的IP和端口，和只读用户的密码，就可以进行MySQL的指标采集。

2023-11-03 16:19:43 778

原创 SRE实战：如何低成本推进风险治理？稳定性与架构优化的3个策略

数列科技联合创始人、CTO——陆学慧TakinTalks 稳定性社区发起人。参编《信息系统稳定性保障能力建设指南 1.0》和《稳定性保障服务商能力要求》。2017 年联合创立数列科技，专注于高可用性领域，为企业提供稳定性解决方案，帮助快速稳定地应对技术挑战。温馨提醒：本文约 5000 字，预计花费 9 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群；回复“0926”获取课件资料；先解释一下什么是经验库。

2023-10-11 14:06:17 611

原创亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

挚文集团基础平台技术总监——童子龙TakinTalks 社区特邀讲师。2022 年加入挚文集团，目前负责陌陌和探探的基础平台部门，包含基础架构、中间件、监控、系统平台等团队。曾就职于腾讯云中间件团队任职技术专家，腾讯云微服务 TSF 开源社区 Founder，专注于微服务治理、基础架构、精益管理、云计算及分布式中间件技术等。温馨提醒：本文约 7500 字，预计花费 13 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群；回复“0809”获取课件资料；

2023-08-24 16:56:38 410

原创如何从用户视角搭建可观测体系？阿里云ECS业务团队的设计思路

阿里云高级技术专家——杨泽强（竹涧）TakinTalks 社区专家团成员，多年云计算领域研发经验，在阿里先后参与集团 DevOps 平台、弹性计算核心管控以及 SRE 工程相关研发，当前在弹性计算团队从事研发工作，主要负责弹性计算稳定性架构与智能运维平台建设。温馨提醒：本文约 8000 字，预计花费 15 分钟阅读。「TakinTalks 微信公众号」后台回复 “交流” 进入读者交流群；回复“可观测”获取相关资料；从业务视角来看，我认为标准化是一个重要的趋势。

2023-08-24 16:54:07 332

原创阿里云故障洞察提效50%，全栈可观测建设有哪些技术要点？

阿里云智能技术专家——曾庆国（悦达）TakinTalks 社区专家团成员。KubeVela 社区 Maintainer。长期从事云原生可观测、应用持续交付、基础设施管理等云原生领域，积累大量基于 Kubernetes 的云原生应用管理平台建设经验和可观测领域实践经验。曾帮助工业互联网、金融和企业办公等多个行业头部用户完成云原生 DevOps 转型。ArchSummit、Gopher、SDCon、A2M 等大会讲师。温馨提醒：本文约 8000 字，预计花费 15 分钟阅读。

2023-08-24 16:52:00 225

原创月活近千万，连续 365 天无故障：货拉拉怎么做稳定性指标度量？

货拉拉技术稳定性团队负责人——李全TakinTalks 社区特邀讲师。2021 年加入货拉拉，现任货拉拉技术稳定性团队负责人，主导了公司技术稳定性体系从 0 到 1 的建设，也曾作为核心成员深度参与了阿里本地生活技术风险体系建设，在应急响应、变更管控、大促保障等稳定性领域有丰富经验。温馨提醒：本文约 5500 字，预计花费 11 分钟阅读。后台回复 “交流” 进入读者交流群；回复“0607”获取课件资料；1）目标明确在每个指标被定义出来之后，反问自己这么一句话：指标定义出来到底是想要做什么？

2023-08-24 15:18:36 438

原创月近万次发布，故障率＜4‰如何做到？去哪儿测试左移重难点揭秘！

去哪儿网测试开发专家——鲁国宁TakinTalks 社区专家团成员。2019 年加入去哪儿网，负责测试流程的治理和测试工具建设。主导/参与建设的平台有自动化测试、全链路压测、代码覆盖率、Mock 平台、智能推荐等。曾先后就职于京东商城、海尔集团等，擅长性能压测平台建设，并实现近亿级 QPS 压测，曾多次为 618、双 11 等重要活动保驾护航；温馨提醒：本文约 4500 字，预计花费 8 分钟阅读。后台回复 “交流” 进入读者交流群；回复“5132”获取课件资料；

2023-06-25 11:56:41 345

原创如何在金融企业推进故障演练？中国人寿分阶段实践总结

中国人寿研发中心高级工程师——刘玢TakinTalks社区专家团成员。拥有多年开发和运维经验，专注高可用领域，目前负责中国人寿混沌工程等多项高可用举措的规划和落地实施，对于构建高可用系统具有深入的理解和实践经验。温馨提醒：本文约4600字，预计花费9分钟阅读。后台回复 “交流” 进入读者交流群；回复“0426”获取课件资料；

2023-05-18 18:26:55 343

原创服务百万商家的系统，发布风险如何规避？微盟全链路灰度实践

微盟基础架构团队技术专家——戴明智TakinTalks社区专家团成员，SpringFramework、Apache Skywalking社区Contributor，个人博客阅读量100w+。2019年入职微盟，基础架构团队技术专家，参与并负责微盟全链路灰度平台的建设，经历了整个全链路灰度平台从0到1 的全过程。温馨提醒：本文约6000字，预计花费12分钟阅读。「TakinTalks稳定性社区」公众号后台回复 “交流” 进入读者交流群；回复“0412”获取课件资料；

2023-04-28 16:36:30 996

原创 “930大促”日活增速超40% ，哈啰如何用预案高效应急？

在预案的工具化建设方面，业界也有很多比较好的实践。哈啰也在考虑自动化预案平台的建设，首先是先做预案的统一标准化管理，然后再与各个系统打通，提升预案执行效率，避免人工操作带来的一些问题。如下图所示，预案平台在设计上包含四个关键能力——预案管理、能力对接、决策感知、应急协同。预案的执行主要依赖两点：当前应该执行哪个预案，以及预案如何执行。

2023-04-18 16:14:22 332

原创 B站容量管理：游戏赛事等大型活动资源如何快速提升10+倍？

以B站直播业务为例，直播作为一个大部门，假设整体容量使用率是 40%，想要提高使用率，通过直观的可视化报表可以看到直播大部门下，分支业务例如营收，会有送礼、抽奖之类的服务，发现其资源较多且使用率低时，业务团队就能依据可视化报表的信息，提前做治理从而获得更多的收益。在更上层，我们还提供了一套容量可视化以及可运营的数据，提供给业务做支撑，提高业务团队的效率，包括基于业务部门的组织容量、容量事件等，比如容量运营周报，将不同的部门的使用率公开排名，根据数据提供优化建议等，这部分我将在后面详细地介绍。

2023-03-28 17:30:48 269

原创虎牙SRE谈可观测：如何做到比用户和老板更早发现业务异常？

以业务为核心进行，统一建设可观测性。在业务至上的时代，我们都要以业务为核心去做稳定性保障，而不是以技术工程师的视角认为只是保障IT系统或者软件。一个业务可能会涉及到很多微服务系统、庞杂的基础设施、庞杂的用户终端，孤立地只关注某个层面是不够的，必须要以业务为核心去把整个链路给串起来。充分利用业务特点和AIOps算法，集成到发现和定位、判断决策的过程。不管定位还是修复，都需要尽量利用算法的能力把分析结果与告警、预案等打通。让整个链路工作捋顺、上下游畅通。添加助理小姐姐，凭截图免费领取以上所有资料。

2023-03-14 14:23:34 417

原创业务系统故障率居高不下：有哪些非常有效的治理大招？

实际上，上线一个新的功能，它一定是接口维度的，这个接口在平台上做户口注册，接口的QPS、SLA、PCT99等数据都可以在框架层面自动上报做统计分析，同时也会随着接口调用绘制出trace路径，并跟进trace路径得到强弱依赖，这样就完成了对接口在技术层面的所有和质量&性能相关指标的管理。十年前阿里内部提出了几个大的技术战略，可用性是其中之一，在没有工具支撑的情况下，我们当时的做法就是大家都去梳理十大业务流程，把十大业务流程保住，剩下的链路不去投入太多精力，年底整体的可用性确实提升了很多。

2023-03-14 14:06:35 497

原创中国人寿业务稳定性保障：“1+1+N” 落地生产全链路压测

中国人寿寿险研发中心高级工程师熊军军TakinTalks 稳定性社区专家团成员，毕业于中国科学院自动化所，就职于中国人寿保险股份有限公司研发中心，先后从事产品研发、架构设计、质量管理工作，熟悉保险销售管理及销售支持业务，具备数据治理和高可用架构设计经验。现负责质量中心测试公共能力团队，着力建设质量保障工具及平台，助力提升信息系统稳定性。温馨提醒：本文约 4800 字，预计花费 9 分钟阅读。后台回复 “交流” 进入读者交流群；回复“0216”获取课件资料；

2023-03-14 13:51:28 294

原创中国人寿业务稳定性保障：“1+1+N” 落地生产全链路压测

中国人寿将无侵入在线压测作为防御稳定性风险的重要手段，作为保险行业首家落地生产全链路压测的企业，其实践经验具有相当的借鉴意义。

2023-02-17 15:49:33 643

原创微盟全链路压测：如何帮助电商业务实现 10 倍性能提升？

一分钟精华速览全链路压测之所以被誉为电商大促备战的 “核武器” ，是因为它基于实际的生产业务场景、系统环境，模拟海量的用户请求和数据对整个业务链进行压力测试，能真实反映系统的状况，对系统风险和瓶颈真正做到心中有数。微盟作为电商 SaaS 的龙头企业，支撑着数十万中小电商企业的经营，那么在电商大促中微盟系统面临过哪些容量保障挑战？他们的全链路压测又是如何发挥作用的？作者介绍微盟非功能测试负责人——赵金龙 TakinTalks 稳定性社区专家团成员，2017 年加入微盟，曾就职于上海北斗、携程，多年

2023-02-02 17:24:34 384

原创电商系统的高质量容量保障是怎样“炼成”的？

一分钟精华速览容量保障的目标是保证服务在大量用户访问时，依然可以正常为用户提供服务。比如，在“双11”购物节的超高访问量下，各电商系统依然能够稳定地运行，可以说容量保障是所有技术人都应当具备的技能。知名技术博主老张结合其在电商行业多年的容量保障经验，系统梳理了一套容量保障方法，分享了如何根据业务场景制定容量保障的目标，以及如何从点到面系统地落实容量保障工作。作者介绍前得物稳定性测试团队Leader 张维功 TakinTalks社区专家团成员，网络ID老张，前得物稳定性测试团队Leader，资

2023-02-02 16:11:36 640

原创哈啰出行高质量故障复盘法：“3+5+3”（附模板）

在保障超5.3亿注册用户体验和系统稳定性过程中，是如何通过系统的、有策略的总结复盘来避免故障重复发生的？

2022-12-22 17:01:24 1095

原创团队新人多，稳定性经验不足，研发质量怎么保障？｜TakinTalks论道

# 一分钟精华速览 #在研发和稳定性保障过程中，人与设备、程序、组织的交互是一个复杂的过程，虽然人们极少会恶意犯错，但由于受特定情景下的实际条件影响，人为失误也时有发生，那么，如何尽可能减少这些失误的发生？如何保障研发质量和系统稳定？「TakinTalks论道系列」12月刊第三期，即将发布，敬请期待！当我们把人有可能犯错的地方，通过代码、工具或者数据实现强有效的管控，就能做到不让人为因素随意破坏系统的稳定性，也就表明系统稳定性建设的成熟度达到了较高水准，在稳定性建设领域越来越多企业都在往这个方向优化迭代。本

2022-12-15 15:23:34 463

原创去哪儿是如何做到大规模故障演练的？｜TakinTalks

# 一分钟精华速览 #混沌工程作为一种提高技术架构弹性能力和容错能力的复杂技术手段，近年来讨论声音不断，相比在分布式系统上进行随机的故障注入实验，基于混沌工程的大规模自动化故障演练，不仅能将“作战演习”常态化，还能通过提高覆盖面而获得更高的产出价值，帮助更全面地完善故障应急预案和处理体系。此前TakinTalks分享了去哪儿在过去3年里4个阶段的混沌工程能力建设（）。如果说能力建设是从0-1，那么从1-100的大规模自动化演练又是怎么进行的？作者介绍去哪儿网高级技术总监 - 朱仕智TakinTalks社区特

2022-12-14 09:42:59 445

原创去哪儿的常态化容量保障是怎么做的？｜TakinTalks稳定性社区

平台从 2019 年的 1.7 倍流量即不可用，到 2022 年的 4 倍主要流量 0 故障，在最近两三年的时间里，去哪儿的容量保障核心做了哪些工作？我们来一探究竟。

2022-11-11 14:07:32 308

原创系统故障工程师居然可以不背锅？看看几家大厂是怎么做到的！（内附故障复盘模板）

B站、浙江移动、美图、奈雪的茶等专家倾情分享～

2022-08-26 17:08:35 398

原创监控告警怎么搭建比较合理？B站SRE实践总结了4大关键步骤

监控告警的最佳状态就是实现“一五十”，所谓“一五十”，就是指我们能一分钟发现事故，五分钟定位，十分钟解决。相信这也是众多企业SRE的想要达成的目标。

2022-08-23 19:43:03 1575

原创故障复盘后的告警如何加出效果？浙江移动等老司机总结了 6 条注意事项

复盘后告警该不该加，看这里给你一些启发！

2022-08-16 20:49:47 730

原创 B站713故障后的多活容灾建设｜TakinTalks大咖分享

713故障后B站是如何进行多活容灾建设的，这篇文章告诉你

2022-07-27 10:29:53 823

原创「TakinTalks」_ 故障频繁发生，如何做好系统稳定性？

7月16日，我们邀请到了哔哩哔哩在线业务SRE负责人武安闯，及奈雪的茶技术中心高级总监李道兵，和大家一起剖析故障成因，分享实践经验，有章可循地做好系统稳定性建设。

2022-07-13 15:17:54 711

原创开课报名｜「Takin开源特训营」第一期来啦！手把手教你搞定全链路压测！

开源课程，带你从0-1学会全链路压测，工具开源、专业讲师、众多好礼等你来！

2022-06-15 11:35:34 281

原创畅聊安全生产，对话B站、唯品会一线专家｜TakinTalks大咖对谈

“安全生产”是业界新兴起的一种概念，来源于传统行业，加强安全生产就是为了防止和减少生产安全事故，保障人民群众生命和财产安全，促进经济社会持续健康发展。随着互联网发展，数字经济在经济总量中占比超30%，在以IT系统为主要支撑的新兴互联网企业中，各类系统故障虽不会造成人员伤害，但给企业带来的损失却不容小觑，除了直接的经济损失还会造成用户的大量流失，严重损害企业形象。正因如此，数字化业务也需要“安全生产”，构建完善的安全生产体系能帮助企业解决当前的痛点问题：1.互联网企业系统安全生产基础建设薄弱；2.技

2022-05-30 11:22:26 449

空空如也

空空如也