自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程裕强的专栏

学习笔记(1.01^365=37.78,0.99^365=0.025)

原创 Hadoop基础教程-第8章 Zookeeper(8.2 Zookeeper下载与安装)(草稿)

第8章 Zookeeper8.2 Zookeeper安装与配置8.2.1 Zookeeper下载Zookeeper官网:http://zookeeper.apache.org 在首页“Getting Started”区域找到”download”链接 在新页面中再次单击”download”链接,将跳转到下载页面http://www.apache.org/dyn/closer.cgi/zook

2017-06-27 18:06:15 796

原创 Hadoop基础教程-第8章 Zookeeper(8.1 Zookeeper介绍)(草稿)

第8章 Zookeeper8.1 Zookeeper介绍8.1.1 单点故障问题单点故障(single point of failure),从英文字面上可以看到是单个点发生的故障,通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫痪。这也是在设计IT基础设施时应避免的。解决单点问题基本上有3个方向: (1)使用公共缓存,所有服务节点都将

2017-06-27 17:45:30 818

原创 Hadoop基础教程-第7章 MapReduce进阶(7.7 MapReduce 全排序)

第7章 MapReduce进阶7.7 MapReduce 全排序7.7.1 方法1MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完成。   并行程度不高,无法发挥分布式计算的特点。7.7.1 方法2MapReduce全排序的方法

2017-06-25 22:17:21 883

原创 Hadoop基础教程-第7章 MapReduce进阶(7.6 MapReduce 二次排序)

第7章 MapReduce进阶7.6 MapReduce 二次排序

2017-06-23 15:11:17 983

原创 Hadoop基础教程-第7章 MapReduce进阶(7.5 MapReduce 连接)

第7章 MapReduce进阶7.4 MapReduce 连接连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。

2017-06-21 21:27:27 776

原创 Hadoop基础教程-第7章 MapReduce进阶(7.4 自定义Key类型)

第7章 MapReduce进阶7.4 MapReduce 连接连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。

2017-06-18 22:38:44 869

原创 Hadoop基础教程-第7章 MapReduce进阶(7.3 MapReduce API)(草稿)

第7章 MapReduce进阶7.3 MapReduce API从Hadoop0.20开始Hadoop提供了两套MapReduce API,新的API在旧API基础上进行封装,在扩展性和易用性等方面有显著提高。旧API已经被废弃,不再介绍,新API在org.apache.hadoop.mapreduce包中,下面将对该包下的重要类和接口进行介绍。7.3.1 序列化与Writable接口序列化是指将对

2017-06-18 10:10:46 1016

原创 Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)(草稿)

第7章 MapReduce进阶7.2 MapReduce工作机制本节将从作业的角度来解读一个作业时如何在MapReduce计算框架下提交、运行等。注意,在Hadoop 2.x中,MapReduce的工作机制已经被YARN的工作机制所替代。

2017-06-17 17:49:59 906

原创 Hadoop基础教程-第7章 MapReduce进阶(7.1 MapReduce过程)(草稿)

第7章 MapReduce进阶7.1 MapReduce过程7.1.1 input一般而言,数据文件都会上传到HDFS上,也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M(Hadoop 2.x默认的blockSize是128MB,Hadoop 1.x默认的blockSize是64MB)。MapReduce计算框架首先会用InputFormat的子类FileInpu

2017-06-02 09:00:49 1495

原创 Hadoop基础教程-第6章 MapReduce入门(6.5 温度统计)(草稿)

第6章 MapReduce6.5 MapReduce应用6.5.1 温度统计《HADOOP权威指南 第3版 》教程中有个经典例子,既是温度统计。作者Tom White在书中写了程序和讲解了原理,认为读者们都会MapReduce程序的基本环境搭建部署,所以这里轻描淡写给带过了,对于初学者来说,这是一个“天坑”,程序跑步起来,也就消磨了Hadoop初学者的兴趣和意志。这里根据《HADOOP权威指南 第3

2017-06-02 08:43:47 2970 2

提示
确定要删除当前文章?
取消 删除