Hadoop组件使用规范

HDFS使用规范:
1、不允许在/tmp下存放持久化数据
2、不允许根目录下创建子目录
3、不能以下划线和点号开始命名文件
4、租户申请目录需要限定存储大小和文件数

YARN使用规范
1、使用MR运行大作业,必须指定reduce数。
2、单个reduce任务处理的数据量控制在2G左右。
3、提交任务必须指定任务名
4、spark程序禁止使用提交用户权限外的数据

Hive使用规范:
1、单表分区数<10000
2、单分区内文件平均大小<40m, 文件数需<50
3、单分区内文件大小>100m,文件数需<1000
4、表分区需<3层
5、不允许直连平台数据源
6、hive任务不允许使用impala建的view
7、ods数据存储1年,过期删除

kudu使用规范:
kudu目前使用场景,主要是update数据回插hive
尽量避免使用kudu

Impala使用规范:
1、任务执行时长超过8min的,kill
2、任务执行时长超过5min的,排查任务合理性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值