MySQL数据库运维的五大指标

最新推荐文章于 2023-11-24 10:59:58 发布

mituan1234567

最新推荐文章于 2023-11-24 10:59:58 发布

阅读量1.2k

点赞数

分类专栏： DBA

DBA 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

http://os.51cto.com/art/201308/406291_all.htm

如何评价一个公司数据库运维水平的高低？用什么来进行横向与纵向对比？自动化平台建设的目标是什么？必须有相应的指标体系来指导，此指标体系必须满足以下条件：

可以用数字来测算和衡量
最终指标，而不是中间指标

比如有时DBA会关注数据库的吞吐量，但吞吐量越高不能代表数据库提供的服务质量越好，开发人员关心这个指标的原因也是因为担心过高的吞吐量会影响响应时间或者造成系统不可用，所以这只是一个中间指标。

可以全面衡量一个网站的数据库运维水平，而不会顾此失彼
有人文关注

1.1.数据安全

数据安全是第一位的，DBA的首要职责必须保证不丢数据，丢掉数据就丢掉了饭碗！

这有3方面的含义：

1）在人为误操作的时候（update,insert,delete,drop,alter)，能够恢复数据到正确的状态

2）在机房，硬件故障或者操作系统，数据库软件故障的时候，能够恢复数据到正确的状态

3）不丢事务，保证已经入库的数据能够被正确的查询到

另外，还要注意到需要保证主从数据库的一致性，否则读写分离的情况下其实在用户看来仍然丢失了数据。

对于1，主要靠备份来保证，因为复制可以容灾，却不可以容错（当然延迟备份在一定程度可以）。

对于2，可能用备份来恢复，也可能直接进行主库或者从库的切换来恢复服务

对于3，电商，支付库的要求会非常高，采用最高安全级别的数据库软硬件设置以及冗余设备，目标是不丢任何1个事务，因为即使1个事务也可能造成大量金钱的损失，同时造成企业信誉的下降。

“911”事件曾造成1200家公司受灾，其中一半以上的企业因为IT数据损毁、丢失，导致业务无法恢复，以致于宣布倒闭。金融界巨头Morgan Stanley 全球营业部第二天就恢复正常工作，正是因为先前建立的远程容灾系统保护了重要的数据。

可测量指标：

RPO（Recovery Point Object）：恢复点指标，是指灾难发生后，容灾系统能把数据恢复到灾难发生前的哪一个时间点的数据，它衡量企业在灾难发生后会丢失多少生产数据
RTO（Recovery Time Object）：系统恢复的时间

RPO说明了备份的可靠性和完整性，RTO说明了恢复的可靠性与速度。

由于MySQL开源版本并不提供热备的工具以及备份管理的工具（ＭSSQL，Oracle是提供的，当然它们是商业软件），所以要求ＤBA开发出自己的备份还原管理平台（脚本）。这也是DBA的首件工作。

1.2.无故障（停机）时间

运维和开发不一样，开发最重要的是保证一定效率的情况下实现功能，同时程序Bug少。运维讲的是提供稳定服务的时间。用术语来说就是几个9，具体含义就是年度不可服务（不管是主动的还是被动的）时间除以全年时间，百分比越高越好。具体和时间的换算关系见下表：

根据墨菲定理（If anything can go wrong,it will）的推论，世界上没有 100% 可靠的 Web站点(除非不运行)。运维的最高境界当然就是5个9了，一年停机时间只有5分钟，这是相当难以达到的目标，往往一个大故障就会把全年的停机时间用完。

业界网站的可用性都是多少？引人注目的 Web 新贵 Twitter (http://twitter.com)， 2008 年前四个月的可用性只有 98.72%，有 37小时 16分钟不能提供服务，连2个9 都达不到，甚至还没达到”基本可用”状态。电子商务巨头 eBay 2007 年的可用性是 99.94%，考虑到 eBay 站点的规模与应用的复杂程度，这是个很不错可用性指标了。

多数情况下，网站可用性会是 SLA （Service Level Agreement, 服务水平协议) 中的一个重要度量指标，也是运维团队向自己老板做出的正式承诺。但可用性是能够持续改进的东西，运维负责人不可希望一步登天。

另外，如果是做第三方托管，需要明确第三方的服务能力与责任。否则，IDC 经常断电或者断网，即使自身做的再好也无法保证服务时间了。

提高可用性的一些常规策略有消除单点，部署冗余设备等。如果要提供更高的可用性，比如 4 个 9 甚至 5 个9，就不是简单靠硬件就能做到的事情，还需要建立自动化的工具与平台，完善的流程制度与变更机制，7*24小时的专人值班等。

可测量指标：

年度不可服务时间比例：年度不可服务（不管是主动的还是被动的）时间除以全年时间。

1.3.响应时间

响应时间是指一条查询或者更新语句从发出请求到接收完数据的时间。

因为最大响应时间的不确定性和不可重复性，所以一般使用X%的查询响应时间作为指标。如果值为95%为10ms，意味着95%的查询会在10ms内返回。对于OLTP查询来说，在50ms内返回是比较理想的结果。超过200ms的查询可以视为慢查询。

此指标较难收集，采用tcprstat虽然可以，但是tcprstat本身有一定的负载，另外也只收集最高到99%的响应时间，如果想知道比如99.999%的平均、最大响应时间就需要修改源码了。

目前有2个思路收集此数据：

采用tcpdump+pt-query-digest，将tcpdump抽样数据发送到中心机上利用pt-query-digest进行分析，然后入库后显示。此方法也需要修改pt源码，因为原版的pt支持的粒度太粗了，如下图，100ms直接跳到了1s：

此方法的优点是可以显示不同语句的情况，缺点是如果抽样时间长，中心机分析不完，而抽样时间短又可能信息没有代表性。

另外一个更轻量级的方法是将慢查询日志阀值打到50ms甚至更低，然后统计慢查询时间的分布，可以按时间和服务器维度进行分析（使用pt工具也可以得到不同语句的响应时间分布）如下表所示：

 
 4901 130421 
dt num avg 
—————————– 
0 1839 605 
1 920 596 
2 1215 450 
3 973 481 
4 488 603 
5 449 487 
6 516 597 
7 874 634 
8 1129 532 
9 1160 457 
10 1115 502 
11 987 529 
12 1531 559 
13 1185 537 
14 2238 1235 
15 1418 534 
16 1589 535 
17 951 548 
18 1790 531 
19 1520 503 
20 1845 496 
21 1855 542 
22 1583 564 
23 1840 562 
None 31010 587 
 
ip num ratio 
—————————– 
10.73.xx.xx 4418 14 
10.75.xx.xx 121 0 
10.75.xx.xx 7905 25 
10.75.xx.xx 5706 18 
10.75.xx.xx 6812 22 
10.75.xx.xx 6048 20 
None 31010 100