我遇到了Pandas的性能问题,并将DataFrame写入SQL DB。为了尽可能快地使用我使用的memSQL(这就像代码中的MySQL,所以我不必做任何事情)。我刚刚对我的实例进行了基准测试:熊猫to_sql()的性能 - 为什么这么慢?
docker run --rm -it --link=memsql:memsql memsql/quickstart simple-benchmark
Creating database simple_benchmark
Warming up workload
Launching 10 workers
Workload will take approximately 30 seconds.
Stopping workload
42985000 rows inserted using 10 threads
1432833.3 rows per second
这不是光荣的,它只是我的本地笔记本电脑。我知道......我也在使用root用户,但这是一个抛弃式的Docker容器。
这里是写我的数据框到数据库的代码:
import MySQLdb
import mysql.connector
from sqlalchemy import create_engine
from pandas.util.testing import test_parallel
engine = create_engine('mysql+mysqlconnector://[email protected]:3306/netflow_test', echo=False)
# max_allowed_packet = 1000M in mysql.conf