mysql systime_MySQL参数 time_zone 导致线上sys cpu高

963267367db4d2707291d3585985fecd.png

事故现场

16:27分钟时刻,系统CPU突然标高,大部分都是system,同时processlist暴增,running最高到1500,应用反映超时。

系统其他资源正常,io、网络、内存,都在正常使用范围。网络和io掉了一些,剖析不是他们的问题。

0c1a7763d9dc57d105957f41c460f43b.png

afba28c5daec1bfceb4503f0db35cd3c.png

线上有大量的这个sql:

select

count(*)

from db.tablewherecreate_time>=‘2017-07-01 00:00:00’and create_time

表结构很简单,索引使用正常,表只有1w多行,查询的效果集也只有几千行。

85576f879d996b2fcb4d0fea892208eb.png

这种情形,最先怀疑是并发突增,看了qps并没有增高,营业也没有换取,这个sql的qps也只有40,平时执行0.0xs。故障时代qps并没有突增,因此连接数增高、并发的增高解释为响应变慢。

而且cpu大量的sys这不正常,排查如下:

排查了硬件故障,确立链接会消耗syscpu,但应该是瞬间,不应该cpu是延续的

排查了应用对端,若是tcp协议数据发的很慢,网络堆在mysql发送也会导致sys,同时导致增大链接,排查了没问题。

数据库没有报错

没有其他显著慢sql

查询了以往并发突增导致的故障,并没有syscpu高

线上暂且把这个营业下线,解决了故障。但没有找到根本原因。

环境复现:

之后和开发在离线库抱着试一试的心态复现环境,开启30个线程去查询,也用了sysbench去压测这个sql,复现了问题。(之所以没有选线上从库,看之前的监控,写节点性能低,pxc从库qps也受到了影响)

f72caf1a833d87fc817809eb6a01df28.png

异常现象和线上险些一致,sys高,running高,qps低。

然后重点最先剖析cpu。异常时系统级别cpu上下文切换偏高,是正常的10倍:

b6092618b8fe794077ac5efee125306b.png

这里抓到cpu大量用在kernel的spin自旋锁:

30ef271a16368a052061a477681e2f72.png

pstack:看到大量的线程在挪用 Time_zone_system 方式

b1967e67701083ddb3f0e530bdda4d5c.png

这些线索,大量时间花在cpu的spin,遐想到了之前剖析时看到的文章,http://webcache.googleusercontent.com/search?q=cache:p_AeVu4QhL8J:glume.blog.chinaunix.net/uid-20708886-id-5105437.html+&cd=1&hl=zh-CN&ct=clnk&gl=hk

对于使用 timestamp 的场景,MySQL 在接见 timestamp 字段时会做时区转换,当 time_zone 设置为 system 时,MySQL 接见每一行的 timestamp 字段时,都市通过 libc 的时区函数,获取 Linux 设置的时区,在这个函数中会持有mutex,当大量并发SQL需要接见 timestamp 字段时,会泛起 mutex 竞争。MySQL 接见每一行都市做这个时区转换,转换完后释放mutex,所有守候这个 mutex 的线程所有叫醒,效果又会只有一个线程会乐成持有 mutex,其余又会再次sleep,这样就会导致 context switch 异常高但 qps 很低,系统吞吐量急剧下降。

总结下文章,就是当time_zone=system的时刻,查询timestamp字段,会挪用系统的时区做时区转换,有全局锁__libc_lock_lock的珍爱,导致线程并发环境下,系统性能受限。

若是将time_zone=’+8:00’则不会挪用系统时区,则不会触发系统时区转换,使用mysql自身转换,大大提高了性能。

结论

将time_zone改为’+8:00’后,再次压测性能正常,验证了上面的剖析。

MySQL 中的 mutex 在获取不乐成后,短暂spin,若是还不乐成,会发生context switch。这个故障就是在读取系统时区转换函数时,持有了mutex,mutex独占的,大量的接见会泛起资源竞争,读完才会释放mutex,导致其他并发线程的spin以及cs,从而导致高running和响应慢,cpu飙升,又加剧了其他sql的响应。

后话

qunar线上time_zone都设置的system,而且这个sql也上线有一段时间了,怎么突然泛起问题。

凭证开发所说,之前该表5k行,7月初最先量逐步加大。我也测试了若是读取数目降低到1k的话,是没有这个问题的,尚有降低些qps(降低到10)都不会触发这个问题,因此想应该是qps和读取行数协调作用,每一行都市触发转换,触发了资源的争抢导致这个问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值