2017年06月_程裕强

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hadoop基础教程-第8章 Zookeeper（8.2 Zookeeper下载与安装）（草稿）

第8章 Zookeeper8.2 Zookeeper安装与配置8.2.1 Zookeeper下载Zookeeper官网：http://zookeeper.apache.org 在首页“Getting Started”区域找到”download”链接在新页面中再次单击”download”链接，将跳转到下载页面http://www.apache.org/dyn/closer.cgi/zook

2017-06-27 18:06:15 944

原创 Hadoop基础教程-第8章 Zookeeper（8.1 Zookeeper介绍）（草稿）

第8章 Zookeeper8.1 Zookeeper介绍8.1.1 单点故障问题单点故障（single point of failure），从英文字面上可以看到是单个点发生的故障，通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络，从而导致整个系统或者网络的瘫痪。这也是在设计IT基础设施时应避免的。解决单点问题基本上有3个方向：（1）使用公共缓存，所有服务节点都将

2017-06-27 17:45:30 1003

原创 Hadoop基础教程-第7章 MapReduce进阶（7.7 MapReduce 全排序）

第7章 MapReduce进阶7.7 MapReduce 全排序7.7.1 方法1MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序，但是无法做到全局排序，需要将数据传递到reduce，然后通过reduce进行一次总的排序，但是这样做的要求是只能有一个reduce任务来完成。　　并行程度不高，无法发挥分布式计算的特点。7.7.1 方法2MapReduce全排序的方法

2017-06-25 22:17:21 1093

原创 Hadoop基础教程-第7章 MapReduce进阶（7.6 MapReduce 二次排序）

第7章 MapReduce进阶7.6 MapReduce 二次排序

2017-06-23 15:11:17 1138

原创 Hadoop基础教程-第7章 MapReduce进阶（7.5 MapReduce 连接）

第7章 MapReduce进阶7.4 MapReduce 连接连接操作，也就是常说的join操作，是数据分析时经常用到的操作。比如有两份数据data1和data2，进行关键词连接是一个很通用的问题，如果数据量比较小，可以在内存中完成连接。如果数据量比较大，在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。

2017-06-21 21:27:27 965

原创 Hadoop基础教程-第7章 MapReduce进阶（7.4 自定义Key类型）

2017-06-18 22:38:44 1149

原创 Hadoop基础教程-第7章 MapReduce进阶（7.3 MapReduce API）（草稿）

第7章 MapReduce进阶7.3 MapReduce API从Hadoop0.20开始Hadoop提供了两套MapReduce API，新的API在旧API基础上进行封装，在扩展性和易用性等方面有显著提高。旧API已经被废弃，不再介绍，新API在org.apache.hadoop.mapreduce包中，下面将对该包下的重要类和接口进行介绍。7.3.1 序列化与Writable接口序列化是指将对

2017-06-18 10:10:46 1263

原创 Hadoop基础教程-第7章 MapReduce进阶（7.2 MapReduce工作机制）（草稿）

第7章 MapReduce进阶7.2 MapReduce工作机制本节将从作业的角度来解读一个作业时如何在MapReduce计算框架下提交、运行等。注意，在Hadoop 2.x中，MapReduce的工作机制已经被YARN的工作机制所替代。

2017-06-17 17:49:59 1086

原创 Hadoop基础教程-第7章 MapReduce进阶（7.1 MapReduce过程）（草稿）

第7章 MapReduce进阶7.1 MapReduce过程7.1.1 input一般而言，数据文件都会上传到HDFS上，也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M（Hadoop 2.x默认的blockSize是128MB，Hadoop 1.x默认的blockSize是64MB）。MapReduce计算框架首先会用InputFormat的子类FileInpu

2017-06-02 09:00:49 2127

原创 Hadoop基础教程-第6章 MapReduce入门（6.5 温度统计）（草稿）

第6章 MapReduce6.5 MapReduce应用6.5.1 温度统计《HADOOP权威指南第3版》教程中有个经典例子，既是温度统计。作者Tom White在书中写了程序和讲解了原理，认为读者们都会MapReduce程序的基本环境搭建部署，所以这里轻描淡写给带过了，对于初学者来说，这是一个“天坑”，程序跑步起来，也就消磨了Hadoop初学者的兴趣和意志。这里根据《HADOOP权威指南第3

2017-06-02 08:43:47 4639 2