慢查询 SQL 的危害包括:
-
性能: 慢 SQL 的执行时间过长,则会导致用户的等待时间过长,直接影响用户体验;
-
稳定性: 当 db 出现慢查询,一旦有其他的 DDL 操作,可能会造成整个数据库的等待;另一方面,慢 SQL 会拖垮数据库,导致正常执行的 SQL 也会变成慢 SQL。在字节的线上事故管理平台搜索慢 SQL 关键字可以看到很多由于慢 SQL 导致的事故,危害性较大。
成果
-
发布慢 SQL 月报,整理最佳实践,头部泳道推动改进等取得了慢 SQL 数下降了近 50%,慢 SQL 周运行次数下降了一个数量级的成效;
-
慢 SQL 配置&告警订阅持续配置率从 18% 提升到 70% 左右,持续优化中。
名词解释
-
RDS:Relational Database Service,即字节关系型数据库服务。提供的关系数据库服务,使用的数据库产品主要以开源 MySQL 数据库为主。字节云关系型数据库服务(RDS)专注于为业务提供稳定可靠,弹性伸缩的在线数据库服务。
-
Mars:客增性能平台名称。
-
风神 Aeolus:字节自研敏捷 BI 平台,提供灵活易用的数据查询,高效美观的报表制作,与丰富多元的数据内容。
设计方案
1. 架构图
2. 核心功能
2.1 全面的慢 SQL 度量看板
以字节 RDS 平台数据库的慢 SQL 数据为依据,量化管理客增每日/每周/每月的慢 SQL 数量&运行次数。按照度量看板数据推动大家及时改进存量的慢 SQL,降低数据库质量风险。例如周维度的运行次数 & 慢 SQL 条数趋势图如下所示:
2.2 慢 SQL 治理体系
2.2.1 rds 慢 SQL 阈值配置自动化管理
字节关系型数据库平台-RDS 提供慢 SQL 阈值配置的功能:
- 当 SQL 执行时间超过该阈值后,会被自动 kill 终止运行,相当于慢 SQL 的容灾配置(如果一条 SQL 执行了 3 个月还在运行,结果不敢想象)
慢 SQL 阈值配置自动化管理是解决业务关联的数据库全部配置了慢 SQL 阈值信息。该部分通过线上定时巡检来实现,流程如下:
2.2.2 Mars-慢 SQL 治理平台
在客增质量工作台搭建 Mars-客增慢 SQL 治理 Web 页面,展示相关业务的慢 SQL 现状以及排期跟进修复情况,目的是让业务同学更清晰快速了解当前业务相关,提供问题修复效率,方案如下:
慢 SQL 跟进页面:
2.2.3 慢 SQL 风险评估模型-慢 SQL 分
当业务线存在较多慢 SQL 时,如何精准且合理的分析出哪些慢 SQL 风险最高?
我们基于关系型数据库的 Quert_time,Lock_time,Rows_sent,Rows_affected,Bytes_sent 等维度建立客增的慢 SQL 风险评估模型,给每条慢 SQL & 每个数据库打分,按照慢 SQL 分来排序,分数最高的慢 SQL 风险最高。
慢 SQL 模型如下:
2.3 慢 SQL-CI 流水线准入/准出卡口建设
基于 ByteCycle(ByteCycle 字节统一能效中台)开发慢 SQL 原子节点,提供慢 SQL 相关的卡点能力。bytecycle 基于 psm 维度来构建持续集成流水线,通过提供慢 SQL 原子节点,可以方便用户插拔式使用。CI 卡点能够提供大家对慢 SQL 的重视程度以及提高慢 SQL 的改进效率。
2.4 慢 SQL 监控&告警订阅
目前提供慢 SQL 月报,每日慢 SQL 相关问题修复提醒,sqll kill lark 告警卡片等维度的信息展示和触发。相关样式如下:
- 慢 SQL 月报
- 每日慢 SQL 问题修复提醒
- 配置 db 慢查询阈值后,如果超过该阈值则该语句会被 db 自动 kill,订阅后会自动将获取到的 kill 信息发送到对应群中
3. Code 方案
RDS 元信息获取实现方案
数据表设计
create table cg_rds_external
(
id int unsigned auto_increment primary key comment ‘id’,
db_name varchar(100) default ‘’ null comment ‘db名字’,
owners varchar(100) default ‘’ not null comment ‘db owners’,
region varchar(100) default ‘’ not null comment ‘db部署的region’,
proxy_port_master varchar(100) default ‘’ not null comment ‘master节点的port’,
proxy_port_slave varchar(100) default ‘’ not null comment ‘slave节点的port’,
sync_time datetime default CURRENT_TIMESTAMP not null on update CURRENT_TIMESTAMP comment ‘数据同步时间’
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 comment ‘rds db额外信息’;
create table cg_rds_slow_query_config
(
id int unsigned auto_increment primary key comment ‘id’,
config_id int null comment ‘慢查询配置id’,
db_name varchar(255) default ‘’ null comment ‘db名字’,
region varchar(100) default ‘’ not null comment ‘db部署的region’,
port varchar(100) default ‘’ not null comment ‘规则中的端口’,
db_role varchar(100) default ‘’ not null comment ‘master or slave’,
max_query_time int null comment ‘超时阈值,单位是秒’,
creator varchar(100) default ‘’ null comment ‘规则创建人’,
create_time varchar(100) default ‘’ null comment ‘规则创建时间’,
sync_time datetime default CURRENT_TIMESTAMP not null on update CURRENT_TIMESTAMP comment ‘数据同步时间’
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 comment ‘rds慢查询规则配置信息’;
create table cg_rds_db_alarm_config
(
id int unsigned auto_increment primary key comment ‘id’,
region varchar(100) default ‘’ not null comment ‘db部署的region’,
alarm_id int null comment ‘alarm 规则id’,
db_name varchar(255) default ‘’ null comment ‘db名字’,
type varchar(100) default ‘’ not null comment ‘alarm type,例如lark’,
group_id varchar(100) default ‘’ not null comment ‘lark id’,
create_time varchar(100) default ‘’ not null comment ‘规则创建/更新时间’,
owner varchar(100) default ‘’ not null comment ‘alarm创建人’,
sync_time datetime default CURRENT_TIMESTAMP not null on update CURRENT_TIMESTAMP comment ‘数据同步时间’
)ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 comment ‘rds alarm配置表’;
慢 SQL 查询详情落库
数据表
create table cg_slow_query_detail_info
(
id int unsigned auto_increment primary key comment ‘id’,
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Android工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则近万的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Android移动开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Android开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:Android)
最后
如果你看到了这里,觉得文章写得不错就给个赞呗?如果你觉得那里值得改进的,请给我留言。一定会认真查询,修正不足。谢谢。
欢迎大家一起交流讨论啊~
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
助,可以扫码获取!!(备注:Android)**
最后
如果你看到了这里,觉得文章写得不错就给个赞呗?如果你觉得那里值得改进的,请给我留言。一定会认真查询,修正不足。谢谢。
[外链图片转存中…(img-1xOmbdm1-1713581718432)]
欢迎大家一起交流讨论啊~
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!