hadoop学习：各类key value分隔符参数

最新推荐文章于 2022-08-13 00:07:03 发布

snowzl

最新推荐文章于 2022-08-13 00:07:03 发布

阅读量1.8k

点赞数 1

文章标签： hadoop c output input

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/snowzl/article/details/6525407

版权

hadoop中的map-reduce是处理<key,value>这样的键值对，故指定<key,value>的分割符等参数可以分成三类：

map输出时分割符

分桶时的分隔符

reduce输出时的分割符

下面分别叙述：

1. map输出时分割符

参数：

stream.map.output.field.separator

作用：

指定map输出时的分割符

stream.num.map.output.key.fields

指定输出按照分隔符切割后，key所占有的列数

举例：

input数据：

2,2,c,c,c,c

参数配置：

-mapper "cat" # map 为分布式的cat命令

-reducer "" #reduce为空 /

-jobconf stream.map.output.field.separator=',' /

-jobconf stream.num.map.output.key.fields=2 /

即按照','逗号分隔后，去前2列作为key

output数据：

2,2 c,c,c,c #其中key为2,2 value为c,c,c,c

2. 分桶时的分隔符

map.output.key.field.separator

指定map输出<key,value>对之后，其中key内部的分割符

num.key.fields.for.partition

指定分桶时，按照分隔符切割后，用于分桶key所占的列数

举例：

map的output数据：

2,2 c,c,c,c

参数配置：
-jobconf map.output.key.field.separator=',' /
-jobconf num.key.fields.for.partition='1' /
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

output数据：

这样用于partition分桶的key就为：2

注意，这里分桶不应该用默认的HashPartitioner

3. reduce输出时的分割符

这个与map类似，分别用于reduce输出时分隔符以及key占有的列数

stream.reduce.output.field.separator

stream.num.reduce.output.key.fields

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
hadoop学习：各类key value分隔符参数

hadoop中的map-reduce是处理这样的键值对，故指定的分割符等参数可以分成三类：map输出时分割符分桶时的分隔符reduce输出时的分割符下面分别叙述：1. map输出时分割符参数：stream.map.output.field.separator作用：指定map输出时的分割符stream.num.map.output.key.fields
复制链接

扫一扫

snowzl CSDN认证博客专家 CSDN认证企业博客

码龄18年

1: 原创

76万+: 周排名

195万+: 总排名

1821: 访问

: 等级

38: 积分

5: 粉丝

1: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

hadoop学习：各类key value分隔符参数 1819

分类专栏

分布式计算

最新评论

hadoop学习：各类key value分隔符参数
李闯lucas: 磊哥威武，狂顶[e03] 文章杠杠有深度啊学习了 winner！！！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。