pandas mysql 性能_Pandas to_sql()性能为什么这么慢?

我遇到了Pandas和向sqldb写入数据帧的性能问题。为了尽可能快,我使用memSQL(代码中类似于MySQL,所以我不必做任何事情)。我刚才对我的实例进行了基准测试:docker run --rm -it --link=memsql:memsql memsql/quickstart simple-benchmark

Creating database simple_benchmark

Warming up workload

Launching 10 workers

Workload will take approximately 30 seconds.

Stopping workload

42985000 rows inserted using 10 threads

1432833.3 rows per second

那不光彩,只是我的本地笔记本电脑。我知道。。。我也使用根用户,但它是一个丢弃的Docker容器。在

以下是将数据帧写入数据库的代码:

^{pr2}$

下面是函数的%time度量。在

Multi-threading不能加快速度。它保持在7000-8000行/秒的范围内CPU times: user 2min 6s, sys: 1.69 s, total: 2min 8s Wall time: 2min

18s

截图:

6b0fc940f1212ea7cc3ac1d21b39c40a.png

我还增加了max_allowed_packet的大小以批量提交,并使用更大的块大小。还是不快。在

以下是数据帧的形状:netflow_df2.shape

(1015391, 20)

有人知道我怎样才能更快吗?在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要优化这个SQL,使其成为一个异常计数的SQL。 首先,我们需要确保SQL语句是高效的,以便在大数据量的情况下执行速度快。以下是一些可能的优化步骤: 1. 确保有适当的索引:为了加快查询速度,在被用来查询的列上创建索引。索引可以提高搜索和过滤数据的效率。根据具体情况,可以为需要用于筛选或排序的列创建索引。 2. 简化查询:如果查询中包含复杂的联接或子查询,尝试简化它们以减少执行时间。可以考虑使用更简洁的查询方式,例如使用INNER JOIN代替子查询。 3. 使用合适的过滤条件:在WHERE子句中使用恰当的过滤条件,以便只检索需要的数据。这可以提高查询的效率并减少不必要的数据检索。 4. 使用EXPLAIN分析查询计划:使用EXPLAIN语句来分析查询计划,确定是否存在潜在的性能问题。EXPLAIN会输出有关查询执行计划的信息,例如使用的索引、联接类型以及数据访问方式。 5. 分析表的统计信息:分析维护数据库表的统计信息,以确保查询优化器对查询进行准确的估计并选择最佳的执行计划。可以使用ANALYZE语句来执行此操作。 最后,可以使用异常计数的技巧来编SQL。异常计数指的是在查询结果中只返回满足特定条件的行数。为了实现这一点,可以使用SUM函数配合CASE语句来对满足条件的行进行计数。如下所示: ``` SELECT SUM( CASE WHEN condition THEN 1 ELSE 0 END ) AS exception_count FROM your_table WHERE your_condition; ``` 在上述SQL中,将需要进行计数的条件替换为"condition",将需要筛选的表替换为"your_table",将需要添加的其他条件替换为"your_condition"。执行该查询后,将返回满足条件的行数作为"exception_count"的结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值