问题:spark sql执行生成的数据文件为大量的小文件。原因:spark sql目前版本不支持小文件的合并。临时解决方案:spark sq生成数据后,使用hive进行select 和 insert overwrite操作。