[存储优化]
热点数据可以适当增加副本,可以尽可能多的使用本地策略。
hdfs dfs -setrep -R -w 4 /user/hive/warehouse/employee
hadoop大量小文件:
1.har
2.sequenceFile
3.CombineFileInputFormat
[hive文件合并操作]
//对于只有map的job,合并多个小文件输出文件
set hive.merge.mapfiles=true
//合并mr的多个小文件
set hive.merge.mapredfiles=true
//合并文件大小
set hive.merge.size.per.task=256,000,000
//控制是否可以合并
set hive.merge.mapfiles=true
set hive.merge.mapredfiles=false
热点数据可以适当增加副本,可以尽可能多的使用本地策略。
hdfs dfs -setrep -R -w 4 /user/hive/warehouse/employee
hadoop大量小文件:
1.har
2.sequenceFile
3.CombineFileInputFormat
[hive文件合并操作]
//对于只有map的job,合并多个小文件输出文件
set hive.merge.mapfiles=true
//合并mr的多个小文件
set hive.merge.mapredfiles=true
//合并文件大小
set hive.merge.size.per.task=256,000,000
//控制是否可以合并
set hive.merge.mapfiles=true
set hive.merge.mapredfiles=false