MapReduce
dream0352
即使是不成功的尝试,也胜于胎死腹中的策略。
凭着青春对梦想的追求,在未来的路上越走越好!
展开
-
4.MapReduce基本原理
mapreduce工作原理 (1).客户端提交一个mr的jar包给JobClient(提交方式:hadoopjar ...) (2).JobClient通过RPC和RM进行通信,返回一个存放jar包的地址(HDFS)和jobId (3).client将jar包写入到HDFS当中(path = hdfs上的地址+ jobId)----------默认写10份,当程序结束后删除 (4).开始提原创 2017-03-01 10:38:25 · 1873 阅读 · 0 评论 -
2.hadoop序列化及反序列化
概述 序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。 1、什么是序列化? 将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。 2、什么是反序列化? 将字节流转换为一系列结构化对象的过程。 用途: 1、作为一种持久化格式。 2、作为一种通信的数据格式。 3、作为一种数据拷贝、克隆机制。 java序列化原创 2017-02-28 18:47:10 · 648 阅读 · 0 评论 -
1.MapReduce简介
什么是MapReduce MapReduce是一种编程模型,可用于数据处理的编程框架,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"原创 2017-02-27 10:07:56 · 1417 阅读 · 0 评论 -
3.MapReduce高级接口编程(partitioner、sort、combiner)
Partitioner--分区 主要作用就是将map的结果发送到相应的reduce。 Partitioner组件可以让Map对Key进行分区,从而可以根据不同的key来分发到不同的reduce中去处理。 如果需要定制partitioner也需要继承该类。HashPartitioner是mapreduce的默认partitioner。计算方法是which reducer=(key.hash原创 2017-03-01 08:54:21 · 705 阅读 · 0 评论