mapreduce JobConf 常用可定制参数

参数

作用
缺省值
其它实现
inputFormat
将输入的数据集切割成小数据集inputSplits, 每一个InputSplit将 由一个Mapper负责处理。此外inputFormat中还提供一个RecordReader的 实现, 将一个InputSplit解 析成《key,value》 对提供给 map 函数。
TextInputFormat(针 对文本文件,按行将文本文件切割成InputSplits, 并用LineRecordReader将InputSplit解 析成 《key,value》 对,key是行在文件中的位置,value是文件中的一行)
SequenceFileInputFormat
OutputFormat
提供一个 RecordWriter 的实现,负责输出最终结果
TextOutputFormat(用 LineRecordWriter 将最终结果写成纯文件文件,每个《key,value》对一行,key 和 value 之间用 tab 分隔)
SequenceFileOutputFormat
OutputKeyClass
输出的最终结果中 key 的类型
LongWritable
 
OutputValueClass
输出的最终结果中 value 的类型
Text
 
MapperClass
Mapper 类,实现 map 函数,完成输入的 《key,value》 到中间结果的映射
IdentityMapper(将 输入的 《key,value》 原封不动的输出为中间结果)
LongSumReducer,
LogRegexMapper,
InverseMapper
CombinerClass
实现 combine 函数,将中间结果中的重复 key 做合并
null(不对中间结果中的重复 key 做合并)
 
ReducerClass
Reducer 类,实现 reduce 函数,对中间结果做合并,形成最终结果
IdentityReducer(将 中间结果直接输出为最终结果)
AccumulatingReducer,
LongSumReducer
InputPath
设定 job 的输入目录, job 运行时会处理输入目录下的所有文件
null
 
OutputPath
设定 job 的输出目录,job 的最终结果会写入输出目录下
null
 
MapOutputKeyClass
设定 map 函数输出的中间结果中 key 的类型
如果用户没有设定的话,使用OutputKeyClass
 
MapOutputValueClass
设定 map 函数输出的中间结果中
value 的类型 如果用户没有设定的话,使用 OutputValuesClass
 
OutputKeyComparator
对结果中的 key 进行排序时的使用的比较器
WritableComparable
 
PartitionerClass
对中间结果的 key 排序后,用此 Partition 函数将其划分为R份,每份由一个 Reducer 负责处理。
HashPartitioner(使 用 Hash 函数做 partition)
KeyFieldBasedPartitioner
PipesPartitioner
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值