2016年09月_everl_1

09月 08月

原创 MapReduce中的shuffle机制

shuffle机制是mapreduce整个处理过程中的核心机制，涉及到了分组、排序、数据缓存以及中间结果传递（map结果怎么交付给reduce），其整个过程可以用一张图表示。1.分组当没有自定义分组时，默认所有的key在一个分组中。如果有自定义分组，则按照自定义的分组逻辑进行分组，对应图中的partitions，一个分组为一个partition。从图中可以看出一个partition被传

2016-09-04 22:26:20 1081

原创 MapReduce自定义分组实现

当mapreduce没有自定义分组时，map中所有的key被分为一组，其分组操作默认是走的HashPartitioner：public class HashPartitioner extends Partitioner { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key,

2016-09-04 22:02:07 2075 2

原创 MapReduce自定义数据类型

实现WritableComparable接口的类大多数（在io包中的都可以）可以作为MapReduce中Mapper或Reducer的key-value数据类型。在hadoop框架中自带实现WritableComparable接口的类（FlowBean是自定义的）有：可以看出，自带的类实现了对整形，浮点型，布尔型及String（Text类）的封装，都是比较简单的数据类型，在实际应用中通常需

2016-09-04 19:11:01 3443

原创 HDFS 的Java操作“ Wrong FS: hdfs://xxx, expected: file:///”

从HDFS集群中下载文件到本地：import java.io.FileOutputStream;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputS

2016-09-03 18:24:11 4664 1

原创 HDFS分布式存储框架

HDFS实现了大数据的分布式存储，在HDFS集群中主要包括namenode节点和datanode节点。namenode节点namenode节点负责管理元数据信息以及响应客户端的请求（上传、下载...注意，HDFS集群不支持修改操作）。元数据什么是元数据，为什么需要对元数据信息进行管理呢？因为集群是分布式的，不是单机存储（文件存储在真是路径下）。虽然是分布式存储，但是我们访问的时候实

2016-09-03 15:51:24 1249

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人