TakinTalks稳定性社区
码龄5年
关注
提问 私信
  • 博客:58,381
    社区:3
    视频:2
    58,386
    总访问量
  • 62
    原创
  • 165,955
    排名
  • 172
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2020-03-03
博客简介:

shulieTech的博客

查看详细资料
博客首页
  • 原力等级
    成就
    当前等级
    4
    当前总分
    537
    当月
    0
个人成就
  • 数列科技官方帐号
  • 获得172次点赞
  • 内容获得2次评论
  • 获得241次收藏
创作历程
  • 5篇
    2024年
  • 24篇
    2023年
  • 18篇
    2022年
  • 15篇
    2021年
  • 1篇
    2020年
成就勋章
TA的专栏
  • 稳定性治理
    2篇
  • 故障治理
  • 高可用
  • 技术日记
    5篇
  • Takin应用
    8篇
  • 生产环境全链路压测
    10篇
  • 数列案例
    2篇
兴趣领域 设置
  • 网络空间安全
    系统安全
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

test

我们重构了从监控数据的采集、处理到报警通知的整个流程,并建立了一个统一的监控平台。我们的主监控链路以红色标识,形成了新的系统核心,而原有的、现逐步淘汰的旧系统则以黑色表示。这次改造显著提升了从指标的统一性到轻量级存储方案的效率,降低了日志分类和存储成本,并聚合了Source、Trace、APM、Log等多样化的监控数据,实现了告警的统一处理。我们已经摆脱了依赖于Alertmanager的告警机制,转而使用了自主开发的告警系统,并对开源的报警工具进行了二次开发以满足我们的需求。监控的分类也已经大致完成。
原创
发布博客 2024.04.15 ·
825 阅读 ·
19 点赞 ·
0 评论 ·
8 收藏

定位时长缩减90%:酷家乐如何提升系统故障根因分析准确率?

酷家乐监控负责人——少丰TakinTalks稳定性社区专家团成员,酷家乐监控负责人、技术专家。主要专注稳定性保障、新一代监控系统的研发工作。此前在诺基亚工作十年,先后参与和负责过诺基亚运营商通信系统、创新业务、基础设施架构、新一代Dev0ps平台方面的工作。温馨提醒:本文约6500字,预计花费12分钟阅读。TakinTalks稳定性社区后台回复 “交流” 进入读者交流群;回复“Q102”获取课件;2.2 图 - 魔方语言系统架构。
原创
发布博客 2024.03.28 ·
351 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

日志资源成本减少 35%:新东方可观测体系改造如何降本增效?

TakinTalks稳定性社区专家团成员,新东方教育科技集团高级经理,SRE负责人。负责新东方全集团内业务运维保障工作。对保障SLA稳定性、可观测体系、云原生架构服务体系进行探索及落地,以平台化、标准化为理念完成降本、增效、安全的目标。
原创
发布博客 2024.01.25 ·
900 阅读 ·
20 点赞 ·
0 评论 ·
19 收藏

货拉拉智能监控实践:如何解决多云架构下的故障应急问题?

货拉拉监控平台负责人——柯圣TakinTalks 稳定性社区专家团成员,货拉拉监控平台负责人。曾任职于携程、饿了么的核心中间件团队,深入参与多个自研日志平台、监控平台、时序数据库等系統的研发,深耕可观测性领域近 10 年。目前在货拉拉技术中心负责整体监控体系与监控平台建设。温馨提醒:本文约 7500 字,预计花费 12 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群;回复“1221”获取课件;
原创
发布博客 2024.01.11 ·
1223 阅读 ·
21 点赞 ·
0 评论 ·
17 收藏

15 万字稳定性提升经验:《2023 下半年最佳实践合集》限量申领!

数字业务连续性最佳实践》一书深入探讨了数字化时代下业务连续性的核心问题,结合丰富的案例和实践经验,为您提供了全方位的最实用的方法和最佳的实践,专业性和实用性都非常高,是一本指导您在数字化时代保持业务连续性的必备指南!自从加入 TakinTalks 社区以来,与各位深受系统稳定性折磨的同行者一起,分享我们的经验教训和最佳实践,正如本书作者所述的那样,从战术到策略,系统性地给大家提供了参照物和手册,相信大家一起可以从基础的事情做起,共同提升中国软件公司的系统治理水平。进入榜单者,可获赠 1 本。
原创
发布博客 2024.01.09 ·
532 阅读 ·
9 点赞 ·
0 评论 ·
6 收藏

Prometheus+Grafana:转转如何打造开箱即用的一体化监控系统?

转转存储服务负责人——苑 冲TakinTalks稳定性社区专家团成员,转转存储服务负责人,负责消息中间件(MQ)、键值(KV)存储、Redis、监控系统、KMS凭据管理系统、短信服务等。温馨提醒:本文约7000字,预计花费10分钟阅读。后台回复 “交流” 进入读者交流群;回复“1214”获取课件;首先,在架构方面,我们采取了服务直接使用Push模式推送数据到M3DB,而中间件则使用Pull模式,通过Prometheus HTTP服务发现机制来实现。
原创
发布博客 2023.12.28 ·
1110 阅读 ·
23 点赞 ·
0 评论 ·
25 收藏

去哪儿如何实现故障率降低 65%?技术 + 管理的数字化度量体系实践

去哪儿网基础研发产品总监——陈靖贤TakinTalks 稳定性社区专家团成员,去哪儿网基础研发产品总监。2013 年加入去哪儿网,曾任职于摩托罗拉、索尼移动通信。多年来深耕于 DevOps、研发效能领域,致力于公司内部 DevOps 实践的落地实施,研发与交付流程的优化,工程效率平台工具的建设与推广,覆盖开发、测试、交付、运维研发生命周期全流程。全面系统提升研发效能,助力业务发展。温馨提醒:本文约 7000 字,预计花费 10 分钟阅读。
原创
发布博客 2023.12.07 ·
937 阅读 ·
23 点赞 ·
0 评论 ·
23 收藏

七年 4 个阶段:滴滴可观测架构演进与实践

在降低存储成本方面,VM 的表现较好,在我们的环境测试中,其存储成本只有 RRDTool 的 1/20 左右。同时,可观测性中的读写是正交的,读写优化存在冲突——写通常是所有曲线写入最新的部分,而读通常是读取多条曲线或某条曲线长时间的数据。在数据传输方面,我们的设计理念也是类似的,但有一点区别在于,传输和存储会用到不同的分片策略,这是因为它们的负载特性不同。例如,某个业务的传输量非常大,但存储查询的量却非常小,这种情况下,我们会在传输端对数据进行拆分,在存储端只需要保证数据的写入即可。
原创
发布博客 2023.12.01 ·
7444 阅读 ·
18 点赞 ·
0 评论 ·
24 收藏

去哪儿“技术债”偿还实践:如何高效、低风险砍掉50%无用代码?

最后,我想用一张图来做个总结。“给我一个 API,我就能减少一半的代码”。这句话主要是想引导大家进行深思,底层技术虽然可能看起来比较枯燥或者无趣,但其所能带来的价值却无比巨大。回顾整个项目,我们投入了大量的人力资源,涉及了诸多团队,最终成功减少了数千万行的线上代码。从技术角度来看,核心技术仅是使用了一个 JVM 工具的 API。然而从业务角度来看,这直接影响到了公司的服务质量、用户体验,乃至整个公司的效率和运营成本。
原创
发布博客 2023.12.01 ·
961 阅读 ·
15 点赞 ·
0 评论 ·
20 收藏

故障发现、定位提效超 70%,去哪儿可观测体系做了哪些优化?

去哪儿网基础架构技术 TL——肖双TakinTalks 稳定性社区专家团成员。2018 年加入去哪儿网,目前负责去哪儿网 CI/CD、监控平台和云原生相关平台建设。期间负责落地了去哪儿网容器化平台建设,协助业务线大规模应用迁移至容器平台,完成监控系统 Watcher2.0 的改造升级和根因分析系统落地。对监控告警、CI/CD、DevOps 有深入的理解和实践经验。温馨提醒:本文约 7500 字,预计花费 12 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群;
原创
发布博客 2023.11.17 ·
329 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

APM建设踩了哪些坑?去哪儿旅行分布式链路追踪系统实践

在构建整个APM体系过程中,三个主要组件:日志收集组件、传输链路治理以及Flink任务性能优化。日志收集组件和传输链路治理主要解决日志大流量和并发的问题。在日志组件中,关注内部和外部内存的限制。在传输层,关注任务调度和集群性能优化。最后,分析了APM系统的价值和意义。每家企业都建设自己的APM系统,同时更需要深入挖掘其价值。APM系统的真正意义在于能够通过数据客观深入了解系统的性能。通过APM系统,可以优化系统的性能、提高用户体验、减少故障和降低潜在风险。
原创
发布博客 2023.11.03 ·
1192 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

“1-5-15”原则:中国联通数字化监控平台可观测稳定性保障实践

我们在各个数据中心和应用中进行整体的埋点,通过标识出不同的租户和系统间的关系,进行跨数据中心的分布式计算。当我们发现开户业务出现报错时,利用图数据库关系,从150个服务告警中,定位到是服务X出了问题,继续通过核密度估计算法和DBSCAN聚类算法,判定该服务的3个实例中,是实例x3出现了问题。因此,有了这样的关联,可以通过指标发现问题,通过链路定位问题,并通过报文和日志判断问题的根因。例如,针对MySQL出现的采集情况,只需要用户输入MySQL的IP和端口,和只读用户的密码,就可以进行MySQL的指标采集。
原创
发布博客 2023.11.03 ·
549 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

SRE实战:如何低成本推进风险治理?稳定性与架构优化的3个策略

数列科技联合创始人、CTO——陆学慧TakinTalks 稳定性社区发起人。参编《信息系统稳定性保障能力建设指南 1.0》和《稳定性保障服务商能力要求》。2017 年联合创立数列科技,专注于高可用性领域,为企业提供稳定性解决方案,帮助快速稳定地应对技术挑战。温馨提醒:本文约 5000 字,预计花费 9 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群;回复“0926”获取课件资料;先解释一下什么是经验库。
原创
发布博客 2023.10.11 ·
518 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

亿级月活的社交 APP,陌陌如何做到 3 分钟定位故障?

挚文集团基础平台技术总监——童子龙TakinTalks 社区特邀讲师。2022 年加入挚文集团,目前负责陌陌和探探的基础平台部门,包含基础架构、中间件、监控、系统平台等团队。曾就职于腾讯云中间件团队任职技术专家,腾讯云微服务 TSF 开源社区 Founder,专注于微服务治理、基础架构、精益管理、云计算及分布式中间件技术等。温馨提醒:本文约 7500 字,预计花费 13 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群;回复“0809”获取课件资料;
原创
发布博客 2023.08.24 ·
271 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

如何从用户视角搭建可观测体系?阿里云ECS业务团队的设计思路

阿里云高级技术专家——杨泽强(竹涧)TakinTalks 社区专家团成员,多年云计算领域研发经验,在阿里先后参与集团 DevOps 平台、弹性计算核心管控以及 SRE 工程相关研发,当前在弹性计算团队从事研发工作,主要负责弹性计算稳定性架构与智能运维平台建设。温馨提醒:本文约 8000 字,预计花费 15 分钟阅读。「TakinTalks 微信公众号」后台回复 “交流” 进入读者交流群;回复“可观测”获取相关资料;从业务视角来看,我认为标准化是一个重要的趋势。
原创
发布博客 2023.08.24 ·
261 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

阿里云故障洞察提效50%,全栈可观测建设有哪些技术要点?

阿里云智能技术专家——曾庆国(悦达)TakinTalks 社区专家团成员。KubeVela 社区 Maintainer。长期从事云原生可观测、应用持续交付、基础设施管理等云原生领域,积累大量基于 Kubernetes 的云原生应用管理平台建设经验和可观测领域实践经验。曾帮助工业互联网、金融和企业办公等多个行业头部用户完成云原生 DevOps 转型。ArchSummit、Gopher、SDCon、A2M 等大会讲师。温馨提醒:本文约 8000 字,预计花费 15 分钟阅读。
原创
发布博客 2023.08.24 ·
194 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

月活近千万,连续 365 天无故障:货拉拉怎么做稳定性指标度量?

货拉拉技术稳定性团队负责人——李全TakinTalks 社区特邀讲师。2021 年加入货拉拉,现任货拉拉技术稳定性团队负责人,主导了公司技术稳定性体系从 0 到 1 的建设,也曾作为核心成员深度参与了阿里本地生活技术风险体系建设,在应急响应、变更管控、大促保障等稳定性领域有丰富经验。温馨提醒:本文约 5500 字,预计花费 11 分钟阅读。后台回复 “交流” 进入读者交流群;回复“0607”获取课件资料;1)目标明确在每个指标被定义出来之后,反问自己这么一句话:指标定义出来到底是想要做什么?
原创
发布博客 2023.08.24 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

月近万次发布,故障率<4‰如何做到?去哪儿测试左移重难点揭秘!

去哪儿网测试开发专家——鲁国宁TakinTalks 社区专家团成员。2019 年加入去哪儿网,负责测试流程的治理和测试工具建设。主导/参与建设的平台有自动化测试、全链路压测、代码覆盖率、Mock 平台、智能推荐等。曾先后就职于京东商城、海尔集团等,擅长性能压测平台建设,并实现近亿级 QPS 压测,曾多次为 618、双 11 等重要活动保驾护航;温馨提醒:本文约 4500 字,预计花费 8 分钟阅读。后台回复 “交流” 进入读者交流群;回复“5132”获取课件资料;
原创
发布博客 2023.06.25 ·
234 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何在金融企业推进故障演练?中国人寿分阶段实践总结

中国人寿研发中心高级工程师——刘玢TakinTalks社区专家团成员。拥有多年开发和运维经验,专注高可用领域,目前负责中国人寿混沌工程等多项高可用举措的规划和落地实施,对于构建高可用系统具有深入的理解和实践经验。温馨提醒:本文约4600字,预计花费9分钟阅读。后台回复 “交流” 进入读者交流群;回复“0426”获取课件资料;
原创
发布博客 2023.05.18 ·
288 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

服务百万商家的系统,发布风险如何规避?微盟全链路灰度实践

微盟基础架构团队技术专家——戴明智TakinTalks社区专家团成员,SpringFramework、Apache Skywalking社区Contributor,个人博客阅读量100w+。2019年入职微盟,基础架构团队技术专家,参与并负责微盟全链路灰度平台的建设,经历了整个全链路灰度平台从0到1 的全过程。温馨提醒:本文约6000字,预计花费12分钟阅读。「TakinTalks稳定性社区」公众号后台回复 “交流” 进入读者交流群;回复“0412”获取课件资料;
原创
发布博客 2023.04.28 ·
955 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多