- 博客(1)
- 收藏
- 关注
原创 合并Spark SQL产生的小文件
问题使用spark sql执行etl时候出现了,最终结果大小只有几百K或几M,但是小文件一个分区有上千的情况。运行spark sql 效率比较低危害:hdfs有最大文件数限制 浪费磁盘资源(可能存在空文件); hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。解决方法方法一:通过spark的coalesce()方法和repartition()方法val...
2019-07-27 16:03:52 3598 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人