数据库压力测试与索引实验、备份与日志实验

stopAtEntry

已于 2023-09-18 16:42:02 修改

阅读量259

点赞数 2

文章标签：数据库 python

于 2023-06-04 14:59:34 首次发布

本文链接：https://blog.csdn.net/m0_57162109/article/details/131032044

版权

一、压力测试与索引实验（注意提前备份好机器上的关键数据，以免因实验而意外损失）

1) 针对你的数据库中的一个表，编写简单的数据查询（查询语句应包括单个涉及非主属性等值比较的查询条件，设该非主属性为A，具体属性结合业务背景）和数据插入语句，程序应能在终端或服务器以文件形式记录每次数据读写操作的耗时。

数据插入：

import pymysql
import time
db=pymysql.connect(host='172.24.xx.xx',user='root'
                ,passwd='xxxxxxxx'
                ,port= 3306
                ,db= '12306')
cur = db.cursor()
insertnum=0
a=1
pertime=0
while insertnum<1000000:    #共插入1000000条数据
    begin=time.perf_counter()
    sql="call insertusr({0},10000)".format(a)   #每10000条数据共同打包插入，耗时1-2秒左右
    cur.execute(sql)
    db.commit()
    end=time.perf_counter()
    totaltime=end-begin
    with open('insert.txt','a') as f:   #将每次插入所耗时间写入文件中
        f.write(f"{totaltime}s\n") 
    insertnum=insertnum+10000
    a=a+10000

数据查询：

import pymysql
import time
db=pymysql.connect(host='172.24.xx.xx',user='root'
                ,passwd='xxxxxxxx'
                ,port= 3306
                ,db= '12306')
cur = db.cursor()
times=0
while times<=101:   #查询101次,1秒一次
    begin=time.perf_counter()
    sql="select * from 用户 where 登录密码='123456100'"
    cur.execute(sql)
    data = cur.fetchall()
    print(data)
    db.commit()
    end=time.perf_counter()
    totaltime=end-begin
    with open('select.txt','a') as f:   #将每次查询所耗时间写入文件
        f.write(f"{totaltime}s\n") 
    times=times+1
    time.sleep(1)

存储过程：

CREATE DEFINER=`root`@`%` PROCEDURE `insertusr`(IN init int, IN times int)
BEGIN
  DECLARE i INT;
	DECLARE tID INT;
	SET i = 0;
	SET tID = init;
	WHILE i < times DO
		INSERT INTO `用户`
		VALUES (CONCAT('USER',tID),CONCAT('123456',tID));
		SET tID = tID + 1;
		SET i = i + 1;  
END WHILE;
SET AUTOCOMMIT=0;
END

2）无索引压力测试实验：设定该表的数据插入频率（如100条/秒），至少有1台以上终端以并发的形式插入数据，运行一段时间使数据达到百万条级以上，数据规模上限自定。同时使用1台终端每秒并发执行一次查询操作，要求查询条件不包含主码，且不存在针对属性A建立的非聚集索引。

设定插入频率为每次打包插入10000条数据，即关闭AUTOCOMMIT，每次耗时1-2秒左右，直至插入1000000条数据。同时对数据进行并发查询，查询对象为非主属性“用户密码”，且不存在针对其建立的非聚集索引。

图 1 插入耗时-before

图 2 查询耗时-before

3）有索引压力测试：清空原有数据，实验内容同上，但除主键索引外，需要针对属性A建立非聚集索引，重新执行一轮压力测试。

基本条件同上，对“用户密码属性”建立非聚集索引，重新进行一轮测试

图 3 建立非聚集索引

图 4 插入耗时-after

图 5 查询耗时-after

4）分析实验数据，制作图表，观察同一方案插入时间与查询时间变化，分析实验结果原因。

使用matplotlib制作折线图

图 6 未使用索引

可见，在未使用索引时，随着数据量的增长，插入以及查询都有一定幅度的增长。这是因为在未使用非聚集索引的情况下，向表中插入数据需要遍历整个表从而找到一个顺序合适的位置插入；向表中查询也需要遍历整个表从而找到符合目标的行数据。随着数据量的增大，遍历整张表所需的时间也会随之增加。

图 7 使用索引

在使用了非聚集索引的情况下，插入数据所耗时间依旧会随着数据量的增大而增加，而数据查询耗时则没有明显增加。这是因为在有索引的情况下就不需要再遍历整张表了。

5）分析实验数据，制作图表，比较相同资源条件下不同方案同一指标随时间的变化，分析实验结果原因。

图 8 插入操作对比

由图可见，使用了非聚集索引后的插入操作耗时有所上升，这是因为插入数据会改变平衡树各节点中的索引数据内容，破坏树结构。因此，在每次数据改变时， DBMS都必须去重新梳理树的结构，这是耗时的主要原因。

图 9 查询操作对比

可见。在使用了非聚集索引之后查询耗时有了明显的下降。这是因为使用索引之后的查询操作就不需要再遍历整张表了，这使得查询耗时得到明显的优化。

matplotlib：

import matplotlib.pyplot as plt

with open("select0.txt", "r") as file1:
    data1 = file1.readlines()

with open("select.txt", "r") as file2:
    data2 = file2.readlines()

x1 = []
y1 = []
for line in data1:
    time_str = line.strip().replace('s', '')
    time = float(time_str)
    x1.append((len(x1) + 1)*10000)
    y1.append(time)

x2 = []
y2 = []
for line in data2:
    time_str = line.strip().replace('s', '')
    time = float(time_str)
    x2.append((len(x2) + 1)*10000)
    y2.append(time)

plt.plot(x1, y1, label='before')
plt.plot(x2, y2, label='after')
plt.xlabel('nums')
plt.ylabel('time:second')
plt.legend()
plt.show()