- 博客(5)
- 收藏
- 关注
原创 MapReduce中的shuffle机制
shuffle机制是mapreduce整个处理过程中的核心机制,涉及到了分组、排序、数据缓存以及中间结果传递(map结果怎么交付给reduce),其整个过程可以用一张图表示。1.分组当没有自定义分组时,默认所有的key在一个分组中。如果有自定义分组,则按照自定义的分组逻辑进行分组,对应图中的partitions,一个分组为一个partition。从图中可以看出一个partition被传
2016-09-04 22:26:20 1081
原创 MapReduce自定义分组实现
当mapreduce没有自定义分组时,map中所有的key被分为一组,其分组操作默认是走的HashPartitioner:public class HashPartitioner extends Partitioner { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key,
2016-09-04 22:02:07 2075 2
原创 MapReduce自定义数据类型
实现WritableComparable接口的类大多数(在io包中的都可以)可以作为MapReduce中Mapper或Reducer的key-value数据类型。在hadoop框架中自带实现WritableComparable接口的类(FlowBean是自定义的)有:可以看出,自带的类实现了对整形,浮点型,布尔型及String(Text类)的封装,都是比较简单的数据类型,在实际应用中通常需
2016-09-04 19:11:01 3443
原创 HDFS 的Java操作“ Wrong FS: hdfs://xxx, expected: file:///”
从HDFS集群中下载文件到本地:import java.io.FileOutputStream;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputS
2016-09-03 18:24:11 4664 1
原创 HDFS分布式存储框架
HDFS实现了大数据的分布式存储,在HDFS集群中主要包括namenode节点和datanode节点。namenode节点namenode节点负责管理元数据信息以及响应客户端的请求(上传、下载...注意,HDFS集群不支持修改操作)。元数据什么是元数据,为什么需要对元数据信息进行管理呢?因为集群是分布式的,不是单机存储(文件存储在真是路径下)。虽然是分布式存储,但是我们访问的时候实
2016-09-03 15:51:24 1249
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人