mysql并行导入,与pandas和gnu parallel并行将数据导入mysql

我有几千个目录,我想从中导入数据到MySQL。我创建了一个python脚本,它从单个目录中读取数据并将其放到数据库中。以下是将数据发送到数据库的部分:

host = 'localhost'

engine = create_engine('mysql://user:pass@%s/db?charset=utf8' % host)

conn = engine.connect()

trans = conn.begin()

try:

conn.execute('delete from tests where ml="%s"' % ml)

tests.to_sql(con=conn, name='tests', if_exists='append', index=False)

data.to_sql(con=conn, name='data', if_exists='append', index=False)

trans.commit()

print(CGRE + ml + ': OK' + CEND)

except:

trans.rollback()

print(CRED + ml + ': database error!' + CEND)

raise

conn.close()

一个线程执行效果很好,但速度太慢:

parallel -j 1 "[[ -d {} ]] && (cd {} && data_to_db.py) || echo {} >> ~/Data/failed_db" ::: *

现在我想启动几个进程:

parallel -j 8 .........

有时在执行过程中,我会得到这个错误:

sqlAlchemy.exc.internalError:(pymysql.err.internalError)(1213,'尝试获取锁时发现死锁;尝试重新启动事务')

是否有一种方法可以增加事务的等待时间或以其他方式解决事务,因为如果没有并行执行,导入所有数据将花费太长的时间?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值