数据库机器性能

一、生产环境下的数据库机器配置规划

java应用系统部署常选用2核4G和4核8G的机器配置,数据库部署常选用8核16G以上的机器配置,一般选用16核32G。
一台机器能抗下每秒多少请求,具体和每个请求处理消耗时间有关。但一般java应用系统部署在4核8G的机器上,每秒钟抗下500左右的并发量;对于16核32G机器部署的MySQL数据库而言,每秒扛2、3千,甚至3、4千的并发请求也是可以的。

注意:对于数据库而言,最好采用SSD固态硬盘而不是普通的机械硬盘,因为数据库最大的复杂在于大量的磁盘IO,他需要大量的读写磁盘文件。所以,如果使用SSD固态硬盘,数据库每秒能抗的并发请求量会更高一些。

二、数据库压测性能指标

QPS:Query Per Second,数据库每秒可以处理的请求数量,即每秒可以处理多少个SQL语句。
TPS:Transaction Per Second,数据库每秒可处理的事务量,即每秒可处理多少次事务提交或者回滚。
IOPS:指机器的随机IO并发处理的能力,例如:机器可以达到200IOPS,意思是每秒可以执行200个随机IO读写请求。
吞吐量:指机器的磁盘存储每秒可以读写多少字节的数据量。
这个指标很关键,因为在执行各种SQL语句时,提交事务的时候,其实就是大量的写redo log之类的日志,这些日志都会直接写入磁盘文件。所以,一台机器每秒可读写的字节数量,决定了他每秒将多少redo log写入磁盘。一般来说,写redo log之类的日志,都是对磁盘文件进行顺序写入,不会随机的读写。那么,一般普通磁盘的顺序写入的吞吐量每秒可达200MB左右。

latency:指往磁盘写入一条数据的延迟。
一般来说,磁盘读写延迟越低,数据库性能越高。

CPU负载:CPU负载是一个很重要的性能指标,即使其他的性能指标正常,一旦CPU负载过高,就说明数据库不能继续往下压测更高的QPS了,否则CPU吃不消。
网络负载:主要看机器带宽情况下,在压测到一定的QPS和TPS时,每秒钟的网卡会输入、输出多少MB数据。
内存负载:主要看压测到一定情况下,机器内存消耗多少。

2.数据库压测工具

sysbench,可自动在数据库里构造大量的数据、可模拟上千个线程并发的访问数据库、可模拟使用各种SQL语句来访问数据库,包括模拟出各种事物提交到数据库,甚至可模拟十几万的TPS来压测数据库。

1.在linux上安装sysbench工具

sysbench安装

首先你需要有一台linux机器,如果你只有一个windows笔记本电脑,可以在里面装一个linux的虚拟机,然后你可以用如下的
命令设置一下yum repo仓库,接着基于yum来安装sysbench就可以了,安装完成以后验证一下是否成功。

curl -s https://packagecloud.io/install/repositories/akopytov/sysbench/script.rpm.sh | sudo bash
 sudo yum -y install sysbench 
 sysbench --version

如果上面可以看到sysbench的版本号,就说明安装成功了。

测试用例

在自己的数据库里创建好一个测试库,我们可以取个名字叫做test_db,同时创建好对应的测试账号,可以叫做test_user,密码也是test_user,让这个用户有权限可以访问test_db。
然后我们将要基于sysbench构建20个测试表,每个表里有100万条数据,接着使用10个并发线程去对这个数据库发起访问,连续访问5分钟,也就是300秒,然后对其进行压力测试。

基于sysbench构造测试表和测试数据

sysbench --db-driver=mysql --time=300 --threads=10 --report-interval=1 --mysql-host=127.0.0.1 --mysql- port=3306 --mysql-user=test_user --mysql-password=test_user --mysql-db=test_db --tables=20 – table_size=1000000 oltp_read_write --db-ps-mode=disable prepare
上面我们构造了一个sysbench命令,给他加入了很多的参数,现在我们来 解释一下这些参数,相信很多参数大家自己看到也就大致明白什么意思了:

  1. –db-driver=mysql:这个很简单,就是说他基于mysql的驱动去连接mysql数据库,你要是oracle,或者sqlserver,那自然就是其他的数据库的驱动了
  2. –time=300:这个就是说连续访问300秒 3. --threads=10:这个就是说用10个线程模拟并发访问
  3. –report-interval=1:这个就是说每隔1秒输出一下压测情况
  4. –mysql-host=127.0.0.1 --mysql-port=3306 --mysql-user=test_user --mysql-password=test_user:这一大串,就是说连接到哪台机器的哪个端口上的MySQL库,他的用户名和密码是什么
  5. –mysql-db=test_db --tables=20 --table_size=1000000:这一串的意思,就是说在test_db这个库里,构造20个测试表,每个测试表里构造100万条测试数据,测试表的名字会是类似于sbtest1,sbtest2这个样子的
  6. oltp_read_write:这个就是说,执行oltp数据库的读写测试
  7. –db-ps-mode=disable:这个就是禁止ps模式
    最后有一个prepare,意思是参照这个命令的设置去构造出来我们需要的数据库里的数据,他会自动创建20个测试表,每个表里创建100万条测试数据,所以这个工具是非常的方便的。
压测结果分析

按照我们上面的命令,我们是让他每隔1秒都会输出一次压测报告的,此时他每隔一秒会输出类似下面的一段东西:https://apppukyptrl1086.pc.xiaoe-tech.com/detail/i_5e383c5357307_MjhluwMb/1?from=p_5e0c2a35dbbc9_MNDGDYba&type=6 4/5 [ 22s ] thds: 10 tps: 380.99 qps: 7312.66 (r/w/o: 5132.99/1155.86/1321.35) lat (ms, 95%): 21.33 err/s: 0.00 reconn/s: 0.00
我来给大家解释一下这是什么意思,首先他说的这是第22s输出的一段压测统计报告,然后是其他的一些统计字段:

  1. thds: 10,这个意思就是有10个线程在压测
  2. tps: 380.99,这个意思就是每秒执行了380.99个事务
  3. qps: 7610.20,这个意思就是每秒可以执行7610.20个请求
  4. (r/w/o: 5132.99/1155.86/1321.35),这个意思就是说,在每秒7610.20个请求中,有5132.99个请求是读请求,1155.86个请求是写请求,1321.35个请求是其他的请求,就是对QPS进行了拆解
  5. lat (ms, 95%): 21.33,这个意思就是说,95%的请求的延迟都在21.33毫秒以下
  6. err/s: 0.00 reconn/s: 0.00,这两个的意思就是说,每秒有0个请求是失败的,发生了0次网络重连这个压测结果会根据每个人的机器的性能不同有很大的差距,你要是机器性能特别高,那你可以开很多的并发线程去压测,比如100个线程,此时可能会发现数据库每秒的TPS有上千个,如果你的机器性能很低,可能压测出来你的TPS才二三十个,QPS才几百个,这都是有可能的。
    另外在完成压测之后,最后会显示一个总的压测报告,我把解释写在下面了:
    SQL statistics: queries performed: read: 1480084 // 这就是说在300s的压测期间执行了148万多次的读请求
    write: 298457 // 这是说在压测期间执行了29万多次的写请求
    other: 325436 // 这是说在压测期间执行了30万多次的其他请求
    total: 2103977 // 这是说一共执行了210万多次的请求
    // 这是说一共执行了10万多个事务,每秒执行350多个事务
    transactions: 105180( 350.6 per sec. ) // 这是说一共执行了210万多次的请求,每秒执行7000+请求
    queries: 2103977 ( 7013.26 per sec. ) ignored errors: 0 (0.00 per sec.) reconnects: 0 (0.00 per sec.) // 下面就是说,一共执行了300s的压测,执行了10万+的事务
    General staticstics: total time: 300.0052s total number of events: 105180 Latency (ms): min: 4.32 // 请求中延迟最小的是4.32ms avg: 13.42 // 所有请求平均延迟是13.42ms max: 45.56 // 延迟最大的请求是45.56ms 95th percentile: 21.33 // 95%的请求延迟都在21.33ms以内

2.压测时如何观察机器的CPU负载情况

最最常用的监测linux机器性能的命令,就是top命令:
top - 15:52:00 up 42:35, 1 user, load average: 0.15, 0.05, 0.01
15:52:00指的是当前时间,up 42:35指的是机器已经运行了多长时间,1 user就是说当前机器有1个用户在使用。最重要的是load average: 0.15, 0.05, 0.01指的是CPU在1分钟、5分钟、15分钟内的负载情况。

CPU负载是什么意思,假设我们是一个4核的CPU,此时如果你的CPU负载是0.15,这就说明,4核CPU中连一个核都没用满,4核CPU基本都很空闲,没啥人在用。如果你的CPU负载是1,那说明4核CPU中有一个核已经被使用的比较繁忙了,另外3个核还是比较空闲一些。要是CPU负载是1.5,说明有一个核被使用繁忙,另外一个核也在使用,但是没那么繁忙,还有2个核可能还是空闲的。如果你的CPU负载是4,那说明4核CPU都被跑满了,如果你的CPU负载是6,那说明4核CPU被繁忙的使用还不够处理当前的任务,很多进程可能一直在等待CPU去执行自己的任务。

3.压测时如何观察机器的内存负载情况

执行top命令之后,中间我们跳过几行内容,可以看到如下一行内容:
Mem: 33554432k total, 20971520k used, 12268339 free, 307200k buffers
这里就是当前机器的内存使用情况,明显可以看出来就是总内存大概有32GB,已经使用了20GB左右的内存,还有10多G的内存是空闲的,然后有大概300MB左右的内存用作OS内核的缓冲区了。
对于内存而言,同样是要在压测的过程中紧密的观察,一般来说,如果内存的使用率在80%以内,基本都还能接受,在正常范围内,但是如果你的机器的内存使用率到了70%~80%了,就说明有点危险了。

4.压测时如何观察机器的磁盘IO情况

//用dstat -d命令:
-dsk/total - 
read writ 
103k 211k 
0 11k

存储的IO吞吐量是每秒钟读取103kb的数据,每秒写入211kb的数据,这个存储IO吞吐量不算多,普通的机械硬盘可以做到每秒钟上百MB的读写数据量。

//用dstat -r命令:
--io/total-
 read writ 
 0.25 31.9 
 0 253 
 0 39.0

读IOPS和写IOPS分别是多少,即随机磁盘读取每秒钟多少次,随机磁盘写入每秒钟执行多少次。一般来说,随机磁盘读写每秒在两三百次都是可以承受的。

5.压测时如何观察网卡的流量情况

//用dstat -n命令
-net/total- 
recv send 
16k 17k

是每秒钟网卡接收到流量有多少kb,每秒钟通过网卡发送出去的流量有多少kb。通常来说,如果你的机器使用的是千兆网卡,那么每秒钟网卡的总流量也就在100MB左右,甚至更低一些。

总结

在数据库压测的过程中,必须不停地增加sysbench的线程数量,增加数据库抗下的QPS,同时通过各种命令观察机器的CPU、内存、磁盘和网络的负载情况,如果发现某个硬件负载过高,此时就可以不再提高数据库的QPS了。
在硬件一定合理的负载范围内,把数据库的QPS提高到最大,这就是数据库压测的时候最合理的一个极限QPS值。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值