转载1:https://www.jianshu.com/p/8fd4b48bf604
转载2:https://www.cnblogs.com/piaolingzxh/p/5469964.html
笔者在项目中发现,100万条记录,字段数100个左右时,原始数据为CSV文件,进行处理时,I5 cpu ,8G的内存需要1h,将其转化为Parquet文件,进行处理时,仅需十分钟。Parquet不愧是Spark计算的御用文件格式。
转载1:https://www.jianshu.com/p/8fd4b48bf604
转载2:https://www.cnblogs.com/piaolingzxh/p/5469964.html
笔者在项目中发现,100万条记录,字段数100个左右时,原始数据为CSV文件,进行处理时,I5 cpu ,8G的内存需要1h,将其转化为Parquet文件,进行处理时,仅需十分钟。Parquet不愧是Spark计算的御用文件格式。