我遇到了Pandas和向sqldb写入数据帧的性能问题。为了尽可能快,我使用memSQL(代码中类似于MySQL,所以我不必做任何事情)。我刚才对我的实例进行了基准测试:docker run --rm -it --link=memsql:memsql memsql/quickstart simple-benchmark
Creating database simple_benchmark
Warming up workload
Launching 10 workers
Workload will take approximately 30 seconds.
Stopping workload
42985000 rows inserted using 10 threads
1432833.3 rows per second
那不光彩,只是我的本地笔记本电脑。我知道。。。我也使用根用户,但它是一个丢弃的Docker容器。在
以下是将数据帧写入数据库的代码:
^{pr2}$
下面是函数的%time度量。在
Multi-threading不能加快速度。它保持在7000-8000行/秒的范围内CPU times: user 2min 6s, sys: 1.69 s, total: 2min 8s Wall time: 2min
18s
截图:
我还增加了max_allowed_packet的大小以批量提交,并使用更大的块大小。还是不快。在
以下是数据帧的形状:netflow_df2.shape
(1015391, 20)
有人知道我怎样才能更快吗?在