自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 全链路追踪在腾讯云的落地思考与实践

关于应用性能监控的一些启发

2024-01-04 11:18:26 846

原创 【云监控游戏行业案例9】欢乐斗地主是如何解决运维焦虑的?

你是否也曾被“快点儿吧,等到花都谢了”洗脑,为又爱又恨的欢乐豆决战到天亮,为何欢乐斗地主能风靡全国,经久不衰,还一直能平稳流畅运行?其背后究竟有哪些运维小妙招?可让整体研运效率显著提升,节省30%+人力成本

2022-11-16 10:46:43 1108 1

原创 腾讯医疗健康高级工程师一线分享:鹅厂人都在用的小程序监控“神器”

腾讯云前端性能监控(Real User Monitoring,RUM)是一站式前端监控解决方案,专注于 Web、小程序等场景监控。前端性能监控聚焦用户页面性能(页面测速,接口测速,CDN 测速等)和质量(JS 错误,Ajax 错误等),并且联动腾讯云应用性能观测实现前后端一体化监控。用户只需要安装 SDK 到自己的项目中,通过简单配置化,即可实现对用户页面质量的全方位守护,真正做到低成本使用和无侵入监控。...

2022-09-01 16:08:11 1036

原创 前端性能监控(RUM)接入层服务高并发优化实践(二)——并发模型原理

腾讯云前端性能监控(Real User Monitoring,RUM)是一站式前端监控解决方案,专注于 Web、小程序等场景监控。前端性能监控聚焦用户页面性能(页面测速,接口测速,CDN 测速等)和质量(JS 错误,Ajax 错误等),并且联动腾讯云应用性能观测实现前后端一体化监控。用户只需要安装 SDK 到自己的项目中,通过简单配置化,即可实现对用户页面质量的全方位守护,真正做到低成本使用和无侵入监控。......

2022-09-01 15:49:03 673

原创 APM 新特性介绍:应用与数据库的“破壁之交”

腾讯云应用性能观测(APM)联合数据库智能管家(DBbrain),对数据库和链路监控进行深度碰撞和融合,在国内云厂商中,首个提供了数据库自治云服务与应用性能服务关联分析能力。

2022-08-10 21:53:30 563

原创 搭建 APM 平台的方案选择:自建还是上云?

目前 APM 开源及商业化产品已经比较成熟,但搭建 APM 平台是自建还是上云呢?本文通过成本和产品功能的角度,给大家提供 APM 选型方案的建议。教您如何实时了解并追踪应用性能情况,低成本打造最佳用户体验。...

2022-08-10 21:50:18 781

原创 有了这种玩法,托管 Promtheus 可甩自建几条街

腾讯云 Prometheus 监控服务(TMP),是基于腾讯云生态诞生的一个托管 Prometheus 服务,基于腾讯云的平台优势,实现了与各个云产品的打通,提供了更高效的云上监控解决方案。

2022-08-10 21:43:50 371

原创 一个人也能轻松运维多云下的 K8s

在部署架构方面,Kubernetes (K8s)是一种灵活的编排工具,它可以运行在本地、公共云和多个公共云。在这样的环境下,我们**需要一套针对云原生环境、完善并且能实现多云监控的监控平台**。自建 Prometheus,繁琐的集群关联步骤,让很多开发运维同学从入门到放弃。于是支持快速接入的**托管 Prometheus** 成为了大家的首选。...

2022-08-10 21:27:22 569

原创 一篇关于业务可用性探测的纯“干”货,榨出一滴水算我输!

业务可用性能监控

2022-08-10 21:25:36 999

原创 腾讯游戏原来是这样使用 Prometheus 的!(下)

背景随着游戏业务不断增多,业务使用的环境也越来越复杂。此时对于监控的难度也是逐步增大,一方面是监控的数据量大;另一方面是多云之间对于监控及时性的解决方案。腾讯游戏团队与腾讯云监控团队协作,深入研究如何持续解决游戏运维监控问题。最终我们通过构建 Prometheus 监控专项能力,提供免搭建的高效运维能力,降低了全球业务监控复杂度,提升了监控及时性等棘手问题。...

2022-06-24 11:51:15 554

原创 腾讯游戏原来是这样使用 Prometheus 的!(上)

背景随着游戏业务不断增多,业务使用的环境也越来越复杂。此时对于监控的难度也是逐步增大,一方面是监控的数据量大;另一方面是多云之间对于监控及时性的解决方案。腾讯游戏团队与腾讯云监控团队协作,深入研究如何持续解决游戏运维监控问题。最终我们通过构建 Prometheus 监控专项能力,提供免搭建的高效运维能力,降低了全球业务监控复杂度,提升了监控及时性等棘手问题。...

2022-06-24 11:49:27 447

原创 CDN 选型 & CDN 安心迁移攻略

前言服务对内容分发网络 (CDN)高度依赖,现网 CDN 迁移,不亚于给飞行中的飞机换引擎,稍有不慎,会直接影响资源的可用性、访问速度,最终导致用户体验的降低。腾讯云云拨测和腾讯云内容分发网络(CDN )联合推出 CDN 测速插件,帮助您在不影响现网体验下,预览全地域 CDN 访问体验和访问性能,实现安心迁移。本文将详细介绍 CDN 迁移至腾讯云过程中 ,如何验证 CDN 访问体验和访问性能,了解国内外全地域/指定地域的性能情况,协助您针对性地制定 CDN 优化、迁移方案及策略。...

2022-06-17 19:05:38 817

原创 一行代码,发现了每月营收减少 30w 的秘密

“购买监控产品类似于买保险,不出问题的时候,总觉得每年多浪费几千块,出了问题才深知其重要性。”| 今天,我们不卷了,慢下来,听我讲一个故事我们有一个客户,做贴片广告转化(贴片广告是指随公开放映或播映的电影片、电视节目、网络视频加贴的一个专门制作的广告),也算是业内比较知名的广告公司,国内几个技术类网站和一些视频网站都是该公司的,主要营收方式:按照点击次数向其“金主爸爸”收费。由于疫情等原因,贴片广告也受到了不小的冲击。该客户经过一番冥思苦想,决定开始关注页面的性能。并通过官网技术交流群联系到我们,

2022-05-14 15:12:42 366

原创 CDN 性能监控 - 用户反馈故障 / 性能问题时,如何模拟用户,复现问题?

李爽腾讯云应用性能观测产品经理,硕士毕业于卡内基梅隆大学。主要负责腾讯云业务层监控相关产品策划,拥有丰富 toB 全栈研发经验,对应用开发、监控、运维、CICD 等方面有深刻理解。前言随着 C 端业务的发展,产品间竞争也愈发激烈,在功能差异化上的空间逐步被挤压,访问性能和体验逐渐成为产品的重要竞争力之一。CDN 应运而生,CDN(Content Delivery Network,即内容分发网络),通过将资源缓存到离用户比较近的节点上,有效地避开互联网上有可能影响传输速度和稳定性的因素,使得我们用户请求的内容

2022-05-10 10:59:43 2296

原创 1+1>2|加快应用访问速度的两大利器

胥耀腾讯云监控产品经理,具有六年云产品工作经验,目前主要负责腾讯云前端性能监控和云监控相关的产品策划工作,对监控和运维领域具有深刻理解。前言随着互联网的发展,网站提供的功能越来越丰富;在移动互联网的兴起下,小程序和手机应用下的图片、短视频、长视频等内容日益增多。在应用较为简单时,性能问题难以感知。但随着应用上的图片、视频等内容增多,用户的访问应用的速度会变慢,体验也会变差。根据美国电商公司亚马逊的调研,网页打开的速度每快100毫秒,就会让网站增加1%的收益。若能增加应用的访问速度,将会极大的提升业务收入。使

2022-05-10 10:43:00 413

原创 Prometheus 与容器融合升级,打造容器监控最佳方案~

谢莹莹腾讯云监控产品经理,硕士毕业于哈尔滨工业大学。目前主要负责腾讯云 Prometheus 监控服务和 Grafana 可视化服务的产品工作,对 to B 商业化产品领域有着丰富的经验。前言如今,以 Kubernetes 为代表的云原生技术正在吞噬世界。随着 Kubernetes 成为容器编排领域的事实标准,Prometheus 也击败了度量领域以 Zabbix 为代表的众多前辈,成为云原生时代容器监控的事实标准。众所周知,Prometheus 是容器场景的最佳监控工具,但自建 Prometheus 对于

2022-05-10 10:24:30 675

原创 网络质量监控 - 守好入口第一关

李爽腾讯应用性能观测产品经理,硕士毕业于卡内基梅隆大学。主要负责腾讯云业务层监控相关产品策划,拥有丰富 toB 全栈研发经验,对应用开发、监控、运维、CICD 等方面有深刻理解。为什么需要网络质量监控?如果说过去的互联网行业,是围绕着国内一线城市需求,快速发展成熟的十年。那么现在和未来的互联网行业,则是从一线城市扩展,对内下沉、对外拓展,以二三线城市及海外市场的需求拉动持续增长的时代。一方面,随着通信基础设施的发展,互联网经济已经完成了从一线城市到二线、三线等城市、地区的扩展。已扩展到直播、电商、游戏、在线

2022-03-29 10:49:44 2320

原创 主动发现问题,预先感知故障及用户体验

作者:黄小龙,腾讯云云监控高级工程师前言 近期,某券商 APP 出现异常,大部分用户出现无法登录,数据显示异常等问题。由于行业的特殊性,股票交易对于时效的敏感性,出现这样的异常会造成无法预估的影响。在业务发展过程中,通常会过度的关注如何设计高可用、高可靠的架构,往往忽略会了真实的用户体验。业务真正上线后,将面临接踵而来的体验问题。为什么会有大量用户反馈体验不佳?访问缓慢?为什么还是有部分地区的用户无法访问?为什么业务域名访问会被劫持或者被封堵?为什么业务页面会被篡改,且无法第一时间获悉?如何实现预

2022-03-25 11:35:14 708

原创 【腾讯云应用性能观测x日志服务】:链路日志关联,加速故障定位

指标-日志-链路一体化监控

2022-03-24 15:46:33 725

原创 云上托管 Prometheus 教程

谢莹莹腾讯云监控产品经理,硕士毕业于哈尔滨工业大学。目前主要负责腾讯云 Prometheus 监控服务和 Grafana 可视化服务的产品工作,对 to B 商业化产品领域有着丰富的经验。前言Prometheus 是当下最火的、更新迭代速度最快的、社区活跃度最高的开源监控系统。相信大多数人都或多或少得有听说过,不乏有跃跃欲试者,本文将花费最少的时间带你打开 Prometheus 新世界的大门。本文包括三部分:1. Prometheus 的自我介绍。2. 自建 or 托管,如何抉择?3. 简单演示下如何使用托

2022-03-11 17:09:33 1515

原创 【链路追踪】采样那些事儿

海量链路数据,是否需要全量采集?

2022-03-11 16:23:24 725

原创 【技术分享】基于 Audits 自动生成小程序质量评估报告

作者:吴甜,腾讯云高级工程师背景近年来,随着微信生态不断完善,小程序已成为金融、政务、零售等多个行业加速数字化转型的重要载体,以小程序为载体的多元营销生态日渐成熟。往往需要多团队协助开发,还未上线便带来了以下几个问题:多人协作开发,开发人员技术参差不齐,如何保证交付的小程序质量?体验小程序时,发现页面很卡,用户体验差,需要研发耗费大量时间进行问题排查。优化之后,只能作用一小段时间,随着业务迭代,整体质量又垮掉了。小程序性能差,体验不行,那具体是什么问题导致的?面对这种情况,我们需要对业务所承接的小程序质量进

2022-03-07 10:25:15 1175

原创 搞了运维开发这么多年,原来 Ping 还能这么玩儿

刘勇腾讯后台研发工程师,就读于北京大学。目前主要从事腾讯云-云拨测项目后台开发相关工作。网络:良辰有一百种方法让你 Ping 不通,你却无可奈何为什么 Ping 不通了?为什么又通了?这些居然都能 Ping 通?这似乎是每个开发或运维会经常面对的灵魂拷问。而关于 Ping 你又了解多少?知道 Ping 还能这么玩吗?Ping 的含义-两端的连通性在开发和运维中我们时常要关心一类问题,客户端和服务器是否可以通信,业务服务能否连接到数据库等两端连通性问题。最常用到的手段就是对目标网络执行 P

2022-03-06 20:38:54 680

原创 腾讯云数据库(Redis)监控最佳指南

简介云数据库 Redis(TencentDB for Redis)是由腾讯云提供的兼容 Redis 协议的缓存数据库,具备高可用、高可靠、高弹性等特征。云数据库 Redis 服务兼容 Redis 2.8、Redis 4.0、Redis 5.0 版本协议,提供标准和集群两大架构版本。最大支持 4TB 的存储容量,千万级的并发请求,可满足业务在缓存、存储、计算等不同场景中的需求。云数据库 Redis 的优势:主从热备:提供主从热备,宕机自动监测,自动容灾。数据备份:标准和集群架构数据持久化存储,可提供每日冷备和

2022-03-06 20:21:21 1116

原创 基于 Prometheus 监控服务多维能力告警优化实践

实践背景通常来说,监控系统的四个黄金指标(Four Golden Signals,参考Goole运维解密)是错误类指标、延迟类指标、流量指标、和饱和度指标,可以在服务级别衡量终端用户体验、服务质量、业务影响等层面的问题。以一个典型的电商服务关键路径(登录->产品浏览详情页->下单)举例。针对图中三个服务,需要设定成功率等监控指标。传统的以实例(比如 IP )为监控对象的场景下,通常会对每个服务的实例都配置告警策略,用于满足最细粒度的告警对象质量监测,但也会带来一系列痛点:需要针对每个实例都配置一

2022-03-06 20:17:19 640

原创 如何通过监控提升小程序的用户体验?

作者:张加浪,腾讯云云监控高级工程师背景“您好!请出示一下您的健康码。”从2020年疫情爆发以来,全国上下均处在疫情防控常态化期间,“健康码”已经成为各地大量人员流动场所进出的重要凭证。全国各地的大街小巷,公共场合,随时随地都要打开健康码,如此大的请求量?如此大的用户数据?是谁在背后为健康码保驾护航呢?真相:健康码在前扑汤蹈火,腾讯云前端性能监控(RUM)在后保驾护航。下列我们将会详细介绍某省健康码如何使用 RUM 实现小程序监控,完成监控覆盖、处理问题和运行保障等。为什么选择 RUM?“客户反馈

2022-03-03 16:55:04 537

原创 CDN 服务质量监控最佳实践

作者:黄小龙,腾讯云云监控高级工程师前言什么是 CDN?CDN 全称 Content Delivery Network,即内容分发网络,它能够有效的避开互联网上有可能影响传输速度和稳定性的因素,使得用户请求的内容传输更加快速和稳定。[点击查看大图]CDN 的原理将静态资源缓存到离用户比较近的节点上,不用千里迢迢去访问服务器。这样不仅能够加快这些资源的访问速度,也能够降低服务器的带宽压力,有效降低服务器负载。CDN 能够显著的优化网站的访问速度,有效提升用户的实际体验。那么怎么使用 CDN 来加速网站内容呢?

2022-03-03 16:48:07 2143

原创 新部署的服务 go_cpu 占满如何处理?

作者:周易建,腾讯云云监控高级工程师排查结果展示[点击查看大图]故障现象新部署的服务,没有任何请求。但 Pod 上的 CPU 一直是占满状态,但是查看现网服务未发现问题。定位问题1. 先埋点,看耗时卡在哪个环节。从前端调用接口,到中间检测环节,再到下游某服务环节,发现调用耗时都在该业务服务上。再看日志,一个新增数据库的接口请求耗时竟然要 1s,再其它两个接口,从请求到完成耗时也要 1-2s。说明该业务服务明显出现了问题。2. 模块问题已确定,现需定位追踪调用的接口问题。因为是在新的地域,部署一套新的服务,代

2022-03-03 16:42:39 612

原创 云原生时代下的端到端一体化监控解决方案

作者:张加浪,腾讯云云监控高级工程师前言某电商客户的网站加速 30% ,调用成功率上升3%,实现了分钟级定位故障......某银行实现端到端的全链路覆盖和性能量化,解决了多处性能短板......在云原生时代,且业务架构复杂、用户量庞大的场景下,他们怎么都能轻而易举地实现了? 方案背景自研业务上云、业务服务云化,底层 IAAS、PAAS 等资源托管依赖,业务聚焦于业务逻辑实现。使用微服务框架开发服务进行敏捷开发,服务模块化运作。资源依赖托管、业务微服务化这些使得服务研发、运营变得更符合云化,但同时也

2022-03-03 16:36:49 990

原创 基于 RUM 的前端优化理论与实践 - 性能篇(一)

作者:李振,腾讯云前端性能监控负责人前言对于前端来说,最重要的是体验,而在前端体验中,最为核心的就是性能。 相信大多数用户接入前端性能监控(RUM)都是为了通过 RUM 质量评价体系来验证前端性能和质量如何,而直接影响性能和质量的则是一系列的指标,因此了解页面性能指标显得格外重要!前端性能监控 RUM 是腾讯云的大前端领域页面质量和性能监控平台,聚焦提升用户体验。了解详情通俗点说,某用户想了解页面访问速度快,是否快,究竟有多快?怎么衡量?需要一个中立的裁判来裁决,而 RUM 的角色正是这个裁判。本

2022-03-03 16:30:33 553

原创 前端性能监控 (RUM) 接入层服务高并发优化实践—缓存模型

作者:张翔,腾讯云监控高级工程师听说上次 RUM 重构,还是上次了!这次 RUM 重构的目的是?RUM 要提升用户体验!!!用户体验好了,用户就用的更好了!真是听君一席话如听一席话下面我们正式切入主题!

2022-03-03 16:24:46 1124

原创 Golang 高质量单元测试之 Table-Driven:从入门到真香

‍‍作者:雷畅,腾讯云监控高级工程师作为一个程序猿如何在不受外力(领导?)的胁迫下自觉自愿写单测?那必然是相信收益 > 成本单测节省未来修 bug 的时间 > 写单测所花费的时间为了保证上述不等式成立,强烈建议您考虑 table-driven 方法!table-driven 方法!!table-driven 方法!!!(只说三遍了)使用 Table-driven 可以快速、无痛写出高质量单测,以降低“我要写单测”这事的心理门槛,最终达到信手拈来、一直写一直爽的神奇效果!(亲测可信)什么是 tab

2022-03-03 16:05:47 307

原创 【技术分享】Go 工程化-前端性能监控接入层 Layout 设计实践

 作者:黎志航&张翔,腾讯监控高级工程师前言本文主要介绍 腾讯云前端性能监控(RUM)在全新接入层上的 Go 工程化实践,介绍 Go 项目布局(下文称 Project Layout)的设计理念、设计规范、项目上的思考与实践,以及如何在多人协作开发下高效完成项目。腾讯云前端性能监控介绍前端性能监控(Real User Monitoring,RUM)是一站式前端监控解决方案,专注于 Web、小程序等场景监控。前端性能监控聚焦用户页面性能(页面测速,接口测速,CDN 测速等)

2022-03-03 15:55:49 1205

原创 海量监控数据处理之道(一):APM指标计算优化

APM 整体性能提高了200%+~

2022-03-03 00:07:28 1923

原创 百万 QPS 前端性能监控系统设计与实现

作者:李振,腾讯云前端性能监控负责人### 什么是前端性能监控(RUM)腾讯云前端性能监控 (RUM) 是一站式前端监控解决方案,用户只需要安装 SDK 到自己的项目中,通过简单配置化,即可实现对用户页面质量的全方位守护,真正做到了低成本使用和无侵入监控。前端性能监控专注于 Web,小程序等大前端领域,主要关注用户页面性能(页面测速,接口测速,CDN 测速等)、质量(JS 错误,Ajax 错误等),并且通过联动腾讯云应用性能监控实现对前后端监控一体化的打通。**前端性能监控技术架构历史**前

2021-12-16 11:26:08 2625

原创 游戏行业 promtheus 监控服务案例

作者:何金胜&张加浪,腾讯云云监控高级工程师前言知名游戏公司云资源使用了腾讯云、AWS 和自研 IDC,业务覆盖了国内和海外。云上资源包括了计算资源服务器、存储类的包括 MySQL、Redis、S3 等、大数据处理(EMR)以及网络资源等。业务服务主要通过 Golang与 PHP 语言开发,服务使用微服务框架,由多个游戏工作室共同开发完成。如此大的业务,如何实现高可用的一体化监控并降低云原生 Prometheus 的监控成本呢?客户现状和痛点经内部规划后,该游戏公司决定基于自建的 P

2021-11-07 00:03:21 351

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除