大数据ETL实践探索（9）---- 使用pandas sqlalchemy进行多进程百万级数据入库postgresSQL

shiter

于 2020-06-15 01:43:35 发布

阅读量1.8k

点赞数 2

分类专栏：大数据机器学习实践探索文章标签：大数据 ETL postgreSQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyaninglm/article/details/106755130

版权

大数据机器学习实践探索专栏收录该内容

130 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

最近有个需求，需要将100W 40个字段左右的 excel 格式数据录入 postgreSQL 数据库。我想了几种办法：

使用psycopg2 原生 api
使用pgAdmin 页面建立好table 直接导入csv
使用pandas to_sql 方法
使用 sqlalchemy 批量录入方法
使用python 多进程，pandas 数据清洗后用 sqlalchemy 批量录入方法

先说一下结论吧，我实验的流程是读取3个文件大小分别是3000行，30万行，70万行，清洗合并后是一个111万行40 个字段的宽表。使用最后一种多进程批量入数据的方式，基本测试结果是，数据加载及清洗将近6分钟，数据入库6分钟。

我机器是i7 7500U 运行上述程序时候睿频加速到3.5GHz 左右，cpu 占用40%，数据清洗时候内存占用500-600MB 拆分入库阶段，内存占用飙升到2000MB - 4000MB 其中包含每个子进程单独占用70MB 左右。

后面且听我娓娓道来

0.基础性工作

连接类

主要作用是是数据库链接时候进行数据库链接字符串的管理

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。