一般来说,用pandas处理小于100兆的数据,性能不是问题。当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会导致程序因内存不足而运行失败。
我今天用pyspark读取2~3G日志文件时,居然报OOM!想必就是数据量超过了pd处理极限导致的
【报错代码】HalfStruct表存储在HDFS上,每天2~3G,一个月70~80G,这点量就OOM真出我意料
spark.sql("select * from HalfStruct").toPandas()
但是又看到另一篇说pandas处理亿级数据,
见http://www.justinablog.com/archives/1357