自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 MapReduce中的shuffle机制

shuffle机制是mapreduce整个处理过程中的核心机制,涉及到了分组、排序、数据缓存以及中间结果传递(map结果怎么交付给reduce),其整个过程可以用一张图表示。1.分组当没有自定义分组时,默认所有的key在一个分组中。如果有自定义分组,则按照自定义的分组逻辑进行分组,对应图中的partitions,一个分组为一个partition。从图中可以看出一个partition被传

2016-09-04 22:26:20 1081

原创 MapReduce自定义分组实现

当mapreduce没有自定义分组时,map中所有的key被分为一组,其分组操作默认是走的HashPartitioner:public class HashPartitioner extends Partitioner { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key,

2016-09-04 22:02:07 2075 2

原创 MapReduce自定义数据类型

实现WritableComparable接口的类大多数(在io包中的都可以)可以作为MapReduce中Mapper或Reducer的key-value数据类型。在hadoop框架中自带实现WritableComparable接口的类(FlowBean是自定义的)有:可以看出,自带的类实现了对整形,浮点型,布尔型及String(Text类)的封装,都是比较简单的数据类型,在实际应用中通常需

2016-09-04 19:11:01 3443

原创 HDFS 的Java操作“ Wrong FS: hdfs://xxx, expected: file:///”

从HDFS集群中下载文件到本地:import java.io.FileOutputStream;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputS

2016-09-03 18:24:11 4664 1

原创 HDFS分布式存储框架

HDFS实现了大数据的分布式存储,在HDFS集群中主要包括namenode节点和datanode节点。namenode节点namenode节点负责管理元数据信息以及响应客户端的请求(上传、下载...注意,HDFS集群不支持修改操作)。元数据什么是元数据,为什么需要对元数据信息进行管理呢?因为集群是分布式的,不是单机存储(文件存储在真是路径下)。虽然是分布式存储,但是我们访问的时候实

2016-09-03 15:51:24 1249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除