- 集群中遇到了文件个数超出限制的错误:
0)昨天晚上spark 任务突然抛出了异常:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001
1)错误提示内容信息:集群中遇到了文件个数超出限制的错误。
2)问题错误来自于hadoop quota设置了限制,但是设置限制的目的是避免集群中有过多的小文件,导致集群利用率不高的情况出现。
我这个spark job主要处理的任务内容:
var conf=new SparkConf().setAppName("test_job") var sc=new SparkContext(conf) var hiveContext=new HiveContext(sc) import hiveContext.implicits._ hiveContext.sql("insert into member_info select t10.*,t11.* from member as t10 inner join member_details as t11 on t10.id=t11.memberid");