hadoop +streaming 排序总结

最新推荐文章于 2022-05-15 16:23:19 发布

weixin_30326515

最新推荐文章于 2022-05-15 16:23:19 发布

阅读量125

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/li-daphne/p/7022023.html

版权

参考http://blog.csdn.net/baidu_zhongce/article/details/49210787

hadoop用于对key的排序和分桶的设置选项比较多，在公司中主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。

基本概念：

partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般使用平台默认的hash分桶，也可以用户自己指定。

key：是需要排序的字段，相同分桶&&相同key的行，排序到一起。

例子：用来搭配不同的参数跑出真实作业的结果来演示这些参数的使用方法。

假设map的输出是这样以点好分隔的若干行：

d.1.5.23
e.9.4.5
e.5.9.22
e.5.1.45
e.5.1.23
a.7.2.6
f.8.3.3

stream.num.map.output.key.fields #设置map输出的前几个字段作为key

stream.map.output.field.separator #设置map输出过程中，字段分隔符号

KeyFieldBasePartitioner的用法

如果想要灵活设置key中用于partion的字段，而不是把整个key都用来做partition。就需要使用hadoop中的

org.apache.hadoop.mapred.lib.KeyFieldBasedPartioner了。

转载于:https://www.cnblogs.com/li-daphne/p/7022023.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30326515

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据经典技术解析：Hadoop+Spark大数据分析原理与实践

AI天才研究院

08-04

1339

大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。Apache Hadoop和Apache Spark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。

Hadoop streaming详解

点火三周的专栏

03-14

1万+

Hadoop streamingHadoop为MapReduce提供了不同的API，可以方便我们使用不同的编程语言来使用MapReduce框架，而不是只局限于Java。这里要介绍的就是Hadoop streaming API。Hadoop streaming 使用Unix的standard streams作为我们mapreduce程序和MapReduce框架之间的接口。所以你可以用任何语言来编写MR

参与评论您还未登录，请先登录后发表或查看评论

hadoop streaming 排序

weiqing250的专栏

10-18

644

一、基础：首先明确一下两个基本概念： Partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般用平台默认的hash分桶，也可以自己指定。 Key：是需要排序的字段，相同分桶&&相同key的行排序到一起。在streaming模式默认hadoop会把map输出的一行中遇到的第一个设定的字段分隔符...

hadoop streaming字段排序介绍

weixin_30343157的博客

12-08

193

我们在使用hadoop streaming的时候默认streaming的map和reduce的separator不指定的话，map和reduce会根据它们默认的分隔符来进行排序 map、reduce：默认的分隔符是\t（读入数据）得到的结果都是按第一个分隔符排序去重后的结果假设我们的有这么一列数据：USER IP DIR 我们想得到某一个用户的某一个ip的一系列dir，那我们应该...

Hadoop Streaming

sunlylorn的专栏

01-18

5402

Hadoop Streaming Hadoop Streaming Hadoop streaming是Hadoop的一个工具，它帮助用户创建和运行一类特殊的map/reduce作业，这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如： $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/had

python hadoop streaming二次排序

wxdoop的博客

10-26

370

data 1 123 1 12 2 234 1 24 1 9 map.py import sys base_count = 10000 for line in sys.stdin: key,value = line.strip().split("\t") key = base_count + int(key) print("%s\t%s"%(str(key),value)) redu...

hadoop streaming 按字段排序与输出分割详解

bitcarmanlee的博客

07-11

1万+

1.默认情况在hadoop streaming的默认情况下，是以”\t”作为分隔符的。对于标准输入来说，每行的第一个”\t” 以前的部分为key，其他部分为对应的value。如果一个”\t”字符没有，则整行都被当做key。这个2.map阶段的sort与partitionmap阶段很重要的阶段包括sort与partition。排序是按照key来进行的。咱们之前讲了默认的key是由”\t”分隔得到的。我

Hadoop - Hadoop Streaming

最新发布

06-21

### Hadoop Streaming Hadoop Streaming 是一种允许用户利用任何可执行脚本或程序（如 Python、Perl 或其他脚本语言）作为 Map 和 Reduce 进程的技术。它通过提供一个框架来实现这一目标，该框架可以读取来自标准...

Hadoop+MapReduce实现原理（一）

weixin_42787605的博客

05-15

782

一、HDFS存储 HDFS是master-slave（NameNode-DataNode）架构： Client：用户使用HDFS的接口 NameNode：一个HDFS集群只有一个NameNode 存储全部文件元数据，包括fsimage（元数据镜像文件）和editlog（文件改动日志）监控DataNode的健康状态，DataNode宕机后及时备份 Secondary NameNode：定期合并fsimage和editlog，做checkpoint DataNode：一个Slave节点有

Hadoop学习之路(四)：Hadoop排序之全排序的原理及实现

萧邦主的城邦

04-15

2970

Hadoop实现全排序一、全排序简介二、全排序的原理三、准备数据四、全排序的实现1.创建Java工程，添加Maven支持2.编写Map类3.编写Reduce类4.编写作业主类5.将代码打包提交到集群6.运行程序五、总结一、全排序简介全排序其实就是全局排序，就是使得所有数据按序排列输出，和我们平常做的给一个数组排序没有什么区别，唯一的区别就是数据量的不同，这里涉及的数据量是TB级别的，这就意味着...

Hadoop-Python实现Hadoop Streaming分组和二次排序

忧郁王子的专栏

01-10

4341

分组(partition) Hadoop streaming框架默认情况下会以’/t’作为分隔符，将每行第一个’/t’之前的部分作为key，其余内容作为value，如果没有’/t’分隔符，则整行作为key；这个key/tvalue对又作为该map对应的reduce的输入。 -D stream.map.output.field.separator 指定分割key分隔符，默认是/t -D

Hadoop Streaming二次排序

问道于盲

12-23

1818

由于Hadoop机器内存不足，所以需要把数据mapred进来跑。这样，就需要，同一个key下的输入数据是有序的，即：对于keyA的数据，要求data1先来，之后data2再来……。所以需要对data进行二次排序。 -D stream.num.map.output.key.fields=2 这个，可以设置在map之后，进行partition时，使用前两个tab的数据进行排序（包括

Hadoop streaming 排序、分桶参数设置

weixin_33795806的博客

12-16

450

编写hadoop任务经常需要用到partition和排序。这里记录一下几个参数。 1. 概念 Partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般用平台默认的hash分桶也可以自己指定。Key：是需要排序的字段，相同分桶&&相同key的行排序到一起。 2. 参数设置在streaming模...

hadoop streaming 输出数据分割与二次排序

enockipp的小'码'头

07-30

1万+

输出数据分割默认情况下Streaming框架将map输出的每一行第一个”\t”之前的部分作为key，之后的部分作为value，key\tvalue又作为reduce的输入。可以用-D stream.map.output.field.separator改变map输出中key和value的分隔符，用-D stream.num.map.output.key.fields设置分隔符的位置，该位置之

MapReduce全局排序实践（利用Hadoop Streaming配置项）

Yage的博客

04-14

1628

有两个文本，a.txt和b.txt，目的是想整合两个文本按照第一列（key）的数值全局升序排列这个全局排序可以在本地通过linux命令进行： [root@master boya]# cat a.txt b.txt | sort -k1 但是输出结果并不是按照数值升序：这是因为sort -k1默认队第一列的各key按照从左到右逐个比较对应的数字的ASCII码来排序的（字典排序），因此我们需...

Hadoop Streaming with Python(入门)

a18850765326的博客

12-11

946

首发于大数据分析挖掘写文章登录Hadoop Streaming with Python(新手向)孙云峰CodeLover/BugHunter/134 人赞同了该文章概述Hadoop Streaming是Hadoop提供的一种编程工具，允许用户用任何可执行程序和脚本作为mapper和reducer来完成Map/Reduce任务，这意味着你如果只是hadoop的一个轻度使用者，你完全可以用Hadoop Streaming+Python/Ruby/Golang/C艹等任何你熟悉的语言来完成你的大数据探索需求，又

运行Mapreduce，运行一半卡着不动了

weixin_43872683的博客

01-18

1542

@[root@master mr_inverted_test]# bash run.sh rmr: DEPRECATED: Please use ‘rm -r’ instead. 19/01/17 23:22:23 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emp...

使用Python实现Hadoop MapReduce程序