Python多线程程序中的MYSQL连接管理研究

项目地址:github.com/slxiao/pyth…

研究背景

针对多用户/高并发访问MYSQL数据库这一场景,研究不同Python并发模式(单线程/多线程)和不同MYSQL连接模式(单连接/多连接/连接池)时的程序性能。

研究手段

脚本

  • 初始化MYSQL数据库

    • init_db.py: 包括创建database,创建table,添加示例(example)等功能。脚本只需执行一次。如果必要,需要修改脚本中的数据库hostname, username和password。
  • 并发读取数据库内容

工具

  • cProfile: 一种动态分析工具,测量程序每一步的执行时间。
  • time: 一种Linux内置命令,测量程序总的执行时间。
  • multitime: 一种Linux第三方工具,测量程序在多次执行情况下的最大/平均/最小执行时间。

研究结果

单线程程序中,多连接的耗时显著高于单连接

例如,单线程场景下,连续读取1000次MYSQL数据库中的数据,测量单连接和多连接时各自的执行时间:

root@hzettv53:~/workspace/github/python-mysql-examples# time python stsc.py
real    0m0.234s
root@hzettv53:~/workspace/github/python-mysql-examples# time python stmc.py
real    0m1.378s

复制代码

可以看到,采用单连接时,程序耗时0.234秒;采用多连接(即每次访问都新建一个连接)时,程序耗时1.378秒。后者是前者的近6倍。

进一步分析后可以发现,造成这一现象的原因在于:MYSQL连接的创建是一个时间开销较大的操作。例如,执行命令python -m cProfile -s cumtime stmc.py

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.039    0.039    1.410    1.410 stmc.py:3(<module>)
     1000    0.005    0.000    1.345    0.001 stmc.py:7(read_user_from_db)
     1000    0.013    0.000    0.885    0.001 __init__.py:128(connect)
     1000    0.007    0.000    0.871    0.001 connection.py:53(__init__)
     1000    0.004    0.000    0.856    0.001 abstracts.py:711(connect)
复制代码

可以看到,在多连接情况下,总执行时间1.410秒,其中建立连接这一步(init.py:128(connect))就花了0.885秒,占比接近63%。这说明,创建MYSQL连接是一个时间开销相对较大的步骤。多连接情况下,每次访问MYSQL数据库都会创建一个新的连接,从而大大增加总的执行时间。

MYSQL连接不是线程安全的

执行命令python mtsc.py,程序出现异常。

Exception in thread Thread-102:
Traceback (most recent call last):
  File "/usr/lib/python2.7/threading.py", line 801, in __bootstrap_inner
......
    if buf[0] == 251:  # \xfb
IndexError: bytearray index out of range
复制代码

这种异常一般是由多个线程同时操作共享数据出现冲突导致的。当然,由于冲突的多样性,异常表现并不局限于上面这种。

为什么出现异常?因为MYSQL连接不是线程安全的。这意味着,在多线程程序中,MYSQL连接不能由多个线程共享。

多线程程序中,使用连接池比使用多连接更加高效

既然MYSQL不是线程安全的,那么在多线程程序中,我们有两种选择。

(1) 使用多连接,即每个线程使用一个自己创建的连接。

(2) 使用连接池(Connection Pool),即维护一组创建好的数据库连接,由每个线程在需要时从中获取(而不是创建)一个空闲的连接,并且在使用完毕之后放回(而不是关闭)连接。

那么,哪一种方法效率更高呢?

root@hzettv53:~/workspace/github/python-mysql-examples# time python mtmc.py
real    0m2.347s
root@hzettv53:~/workspace/github/python-mysql-examples# time python mtcp.py
real    0m1.434s
复制代码

通过比较我们可以发现,在多连接情况下,程序执行时间为2.347秒,而在连接池情况下,程序执行时间只要1.434秒,节省了近40%。

这是因为,使用连接池的方式能够减少数据库连接的创建次数,提高数据库连接的使用效率,因而更加高效。

总结

这篇文章针对多用户/高并发访问MYSQL数据库这一场景,研究了不同Python并发模式(单线程/多线程)和不同MYSQL连接模式(单连接/多连接/连接池)时的程序执行效率。

从文中的实验结果可以发现,为了提高MYSQL数据库访问程序的性能:

  • 在能够共享连接的情况下,尽量使用共享连接
  • 在不能共享连接的情况下,使用连接池

更多内容可以访问Github:github.com/slxiao/pyth…

转载于:https://juejin.im/post/5d0b17e1f265da1bb003c45f

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值