HDFS使用规范:
1、不允许在/tmp下存放持久化数据
2、不允许根目录下创建子目录
3、不能以下划线和点号开始命名文件
4、租户申请目录需要限定存储大小和文件数
YARN使用规范
1、使用MR运行大作业,必须指定reduce数。
2、单个reduce任务处理的数据量控制在2G左右。
3、提交任务必须指定任务名
4、spark程序禁止使用提交用户权限外的数据
Hive使用规范:
1、单表分区数<10000
2、单分区内文件平均大小<40m, 文件数需<50
3、单分区内文件大小>100m,文件数需<1000
4、表分区需<3层
5、不允许直连平台数据源
6、hive任务不允许使用impala建的view
7、ods数据存储1年,过期删除
kudu使用规范:
kudu目前使用场景,主要是update数据回插hive
尽量避免使用kudu
Impala使用规范:
1、任务执行时长超过8min的,kill
2、任务执行时长超过5min的,排查任务合理性