【好文推荐】openGauss psycopg2 批量操作性能测试

测试版本

本测试基于 openGauss 版本的 psycopg2 驱动。

import psycopg2 as pg
>>> pg.__libpq_version__
90204
>>> pg.__version__
'2.8.6 (dt dec pq3 ext)'

测试环境

组件说明客户端Rocky Linux 8 虚拟机数据库openGauss 3.0.3 in docker网络本地回路网卡Python3.6.8

测试接口

接口名说明备注cursor.executemany(query, vars_list)执行一个数据库操作,vars_list 列表中的所有参数会逐个被应用到query 中,每组参数都会单独封包发送给服务端。该函数主要用于更新数据库的命令,查询返回的任何结果集都将被丢弃。在其当前实现中,此方法并不比在循环中执行execute()快。psycopg2.extras.execute_batch(cur, sql, argslist, page_size=100)批量执行一个数据库操作,执行的SQL和 executemany 相同,只是单个数据包发送时会发送一批SQL,数量由page_size决定。这样可以减少和服务端的通信次数execute_batch()也可以和预处理语句(PREPARE, EXECUTE, DEALLOCATE)一起使用。extras.execute_batch + 预处理语句使用PREPARE提交创建一个statement,然后通过 execute_batch 提交
psycopg2.extras.execute_values(cur, sql, argslist, template=None, page_size=100, fetch=False)将参数和SQL封装为一条SQL执行,单条SQL中参数的个数由 page_size 决定。

性能对比

INSERT

测试数据

rowsexecutemanyexecute_batchprepare+execute_batchexecute_values10,0009.7820.7070.5010.26650,00052.9793.1232.6371.226100,000111.5046.8314.5572.125

INSERT耗时对比图

075f4c0a99f4559ae9c77c882df405ff.jpeg

INSERT 去除 executemany 对比

0c59d9bcaf0ac4bdf03f6d461be413d7.jpeg

UPDATE

测试数据

rowsexecutemanyexecute_batchprepare+execute_batchexecute_values10,0005.0150.6170.4250.35650,00024.6393.4671.9055.237100,00052.0956.9273.47321.102

UPDATE 耗时对比图

a7546bfb9f614f0ac70c4085418f3bca.jpeg

DELETE

测试数据

(100000 条数据组耗时太久不做展示)

rowsexecutemanyexecute_batchprepare+execute_batchexecute_values10,00015.0208.6990.2776.20450,000248.154227.9581.455142.732

DELETE 耗时对比图

d6470640017e2e035212dc968ff0eb59.jpeg

性能分析

从耗时对比来看,插入、更新、删除在不同的数据量情况下性能是不同的,用户应该根据自己的业务场景来选择使用哪一种操作接口。

插入性能从低到高依次为:

executemany < execute_batch < prepare+execute_batch < execute_values

更新性能从低到高依次为:

executemany < execute_values < execute_batch < prepare+execute_batch

删除性能从低到高依次为:

executemany < execute_batch < execute_values < prepare+execute_batch

性能的高低主要是由于在向服务端发送数据包时的方式不同导致,下面以插入的SQL为例,通过 wireshark 进行抓包可以看出 psycopg2 在通信过程中不同批处理接口的封包情况。

executemany

executemany&nbsp;提交SQL的时候是逐个应用给的参数,每个SQL都单独发送给服务端

9125fbfd58dc96c7014c850d128239b5.jpeg

execute_batch

execute_batch&nbsp;接口区别于&nbsp;executemany&nbsp;的是,在发送给后端的单个请求包里的数据会一次性提交一批的SQL,这样可以减少和服务器之间通信的往返次数

90ebc19798b6d9f71cd2f106e9d69024.jpeg

prepare+execute_batch

prepare&nbsp;可以提前在数据库里面创建一个预备语句对象,在执行 prepare 语句的时候,指定的SQL已经经了解析、分析、重写,这样在后续执行 EXECUTE 时就避免了重复解析分析的工作,从而起到优化性能的作用。

415751148e27d53c4431cc1419ff93e8.jpeg

execute_values

前面的三个接口,不管是单个提交还是批量提交,最终都是一行数据一个SQL发送到服务端的,所以服务端需要逐个执行,而&nbsp;execute_values&nbsp;接口是会按照 page_size 分组参数后,每组参数一次性组成一个SQL进行提交。

dccc8a34b6907312071e9c6a65f5570d.jpeg

测试代码

执行方式:python test.py <api> <row> <operation>

  • <api>&nbsp;支持:&nbsp;executemany,&nbsp;execute_batch,&nbsp;prepare,&nbsp;execute_values

  • <operation>&nbsp;支持&nbsp;insert,&nbsp;update,&nbsp;delete

# coding: utf-8

# Usage: python test.py <api> <count> <operation>

import time
import sys
import psycopg2 as pg
from psycopg2.extras import execute_batch, execute_values
from contextlib import contextmanager

if sys.argv[3] == "insert":
args = [[str(i), i] for i in range(int(sys.argv[2]))]
elif sys.argv[3] == "update":
args = [[i, str(i)] for i in range(int(sys.argv[2]))]
elif sys.argv[3] == "delete":
args = [[i] for i in range(int(sys.argv[2]))]
'''
- *dbname*: the database name
- *database*: the database name (only as keyword argument)
- *user*: user name used to authenticate
- *password*: password used to authenticate
- *host*: database host address (defaults to UNIX socket if not provided)
- *port*: connection port number (defaults to 5432 if not provided)
'''
conf = {
'dbname': "postgres",
'user': 'gaussdb',
'password': '',
'host': '',
'port': 26000,
'sslmode': 'disable'
}


@contextmanager
def calc_time(s):
start = time.time()
yield
end = time.time()
print(f"{s} of '{sys.argv[3]}' cost: ", end - start)


sql_map = {
"insert": {
1: "INSERT INTO t_psycopg2_benchmark VALUES (%s, %s)",
2: "INSERT INTO t_psycopg2_benchmark VALUES ($1, $2)",
3: "INSERT INTO t_psycopg2_benchmark VALUES %s",
},
"update": {
1: "UPDATE t_psycopg2_benchmark as t SET f_value = %s WHERE t.f_key = %s",
2: "UPDATE t_psycopg2_benchmark as t SET f_value = $1 WHERE t.f_key = $2",
3: "UPDATE t_psycopg2_benchmark as t SET f_value = data.v1 FROM (VALUES %s) AS data (id, v1) WHERE t.f_key = data.id",
},
"delete": {
1: "DELETE FROM t_psycopg2_benchmark as t WHERE t.f_key=%s",
2: "DELETE FROM t_psycopg2_benchmark as t WHERE t.f_key=$1",
3: "DELETE FROM t_psycopg2_benchmark as t WHERE t.f_key IN (%s)",
}
}

def insert_data(conn):
print("* preparing data ...")
args = [[str(i), i] for i in range(int(sys.argv[2]))]
cursor = conn.cursor()
sql = "insert into t_psycopg2_benchmark values %s"
execute_values(cursor, sql, args)
conn.commit()


def main():
try:
conn = pg.connect(**conf)
print("* connect success")
except Exception as e:
print(f"connect failed: {e}")
return

cursor = conn.cursor()

sql = "drop table if exists t_psycopg2_benchmark"
cursor.execute(sql)
sql = "create table t_psycopg2_benchmark (f_key text primary key, f_value numeric)"
cursor.execute(sql)

api = sys.argv[1]
if sys.argv[3] != "insert":
insert_data(conn)

print("* benchmarking ...")
if api == "executemany":
with calc_time("executemany"):
sql = sql_map[sys.argv[3]][1]
cursor.executemany(sql, args)
conn.commit()
elif api == "execute_batch":
with calc_time("execute_batch"):
sql = sql_map[sys.argv[3]][1]
execute_batch(cursor, sql, args)
conn.commit()
elif api == "prepare":
with calc_time("execute_values"):
cursor.execute(f"PREPARE test_stmt AS {sql_map[sys.argv[3]][2]}")
if sys.argv[3] == "delete":
execute_batch(cursor, "EXECUTE test_stmt (%s)", args)
else:
execute_batch(cursor, "EXECUTE test_stmt (%s, %s)", args)
cursor.execute("DEALLOCATE test_stmt")
conn.commit()
elif api == "execute_values":
with calc_time("execute_values"):
sql = sql_map[sys.argv[3]][3]
execute_values(cursor, sql, args)
conn.commit()
else:
print(f"unknow api: {api}")

if sys.argv[3] != "delete":
cursor.execute("delete from t_psycopg2_benchmark")
conn.commit()


if __name__ == "__main__":
main()

psycopg2是一个Python的数据库驱动程序,用于连接和操作PostgreSQL数据库。在进行数据库批量插入操作时,可以使用psycopg2的executemany方法。然而,实际执行时可能会发现插入速度较慢。这是因为psycopg2的executemany方法并不真正执行批量插入,而是将每条数据当作单独的插入操作执行,导致速度变慢。 为了解决这个问题,可以使用psycopg2的extras模块中的execute_values方法进行批量操作。通过查看psycopg2的源码,可以找到这个方法并进行替换,从而实现真正的批量插入操作,提高插入速度。参考中的链接提供了相关的技巧和示例代码。 下面是一个使用psycopg2进行批量插入的方法示例: ```python import psycopg2 from psycopg2 import extras def insertManyRow(strings): try: conn = psycopg2.connect(database="数据库", user="用户名", password="密码", host="ip", port="端口号") cur = conn.cursor() sql = "INSERT INTO test(字段1,字段2,字段3,字段4,字段5) VALUES(%s,%s,%s,%s,%s)" extras.execute_values(cur, sql, strings) conn.commit() conn.close() except Exception as e: print("执行sql时出错:%s" % (e)) conn.rollback() conn.close() ``` 在这个示例中,使用了psycopg2的extras模块中的execute_values方法来执行批量插入操作。将插入的数据作为参数传递给该方法,同时指定插入的SQL语句和参数的位置。通过这种方式,可以提高插入的效率。参考中的psycopg2文档可以了解更多关于该方法的详细信息。 此外,参考提供了一个在Stack Overflow上的讨论链接,其中讨论了使用psycopg2进行快速批量插入的方法,也可以供您参考。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Postgresql (GreenPlum) psycopg2批量数据插入](https://blog.csdn.net/xiaodongxiexie/article/details/104048068)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【python】爬虫篇:python使用psycopg2批量插入数据(三)](https://blog.csdn.net/lsr40/article/details/83537974)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值