pandas处理数据最多是M级？还是G？还是亿？极限数量是多少呢？

最新推荐文章于 2024-05-20 21:12:10 发布

chongjiapi1753

最新推荐文章于 2024-05-20 21:12:10 发布

阅读量4.8k

点赞数

文章标签： python 大数据

原文链接：https://my.oschina.net/u/3575262/blog/1578116

版权

一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。

我今天用pyspark读取2~3G日志文件时，居然报OOM！想必就是数据量超过了pd处理极限导致的

【报错代码】HalfStruct表存储在HDFS上，每天2~3G，一个月70~80G，这点量就OOM真出我意料

spark.sql("select * from HalfStruct").toPandas()

但是又看到另一篇说pandas处理亿级数据，

见http://www.justinablog.com/archives/1357

转载于:https://my.oschina.net/u/3575262/blog/1578116

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注