程裕强的专栏

大数据学习笔记(1.01^365=37.78,0.99^365=0.025)

Hadoop基础教程-第8章 Zookeeper(8.2 Zookeeper下载与安装)(草稿)

第8章 Zookeeper8.2 Zookeeper安装与配置8.2.1 Zookeeper下载Zookeeper官网:http://zookeeper.apache.org 在首页“Getting Started”区域找到”download”链接 在新页面中再次单击”download”...

2017-06-27 18:06:15

阅读数 698

评论数 0

Hadoop基础教程-第8章 Zookeeper(8.1 Zookeeper介绍)(草稿)

第8章 Zookeeper8.1 Zookeeper介绍8.1.1 单点故障问题单点故障(single point of failure),从英文字面上可以看到是单个点发生的故障,通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫痪。这...

2017-06-27 17:45:30

阅读数 717

评论数 0

Hadoop基础教程-第7章 MapReduce进阶(7.7 MapReduce 全排序)

第7章 MapReduce进阶7.7 MapReduce 全排序7.7.1 方法1MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完...

2017-06-25 22:17:21

阅读数 765

评论数 0

Hadoop基础教程-第7章 MapReduce进阶(7.6 MapReduce 二次排序)

第7章 MapReduce进阶7.6 MapReduce 二次排序

2017-06-23 15:11:17

阅读数 850

评论数 0

Hadoop基础教程-第7章 MapReduce进阶(7.5 MapReduce 连接)

第7章 MapReduce进阶7.4 MapReduce 连接连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。Ma...

2017-06-21 21:27:27

阅读数 658

评论数 0

Hadoop基础教程-第7章 MapReduce进阶(7.4 自定义Key类型)

第7章 MapReduce进阶7.4 MapReduce 连接连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。Map...

2017-06-18 22:38:44

阅读数 787

评论数 0

Hadoop基础教程-第7章 MapReduce进阶(7.3 MapReduce API)(草稿)

第7章 MapReduce进阶7.3 MapReduce API从Hadoop0.20开始Hadoop提供了两套MapReduce API,新的API在旧API基础上进行封装,在扩展性和易用性等方面有显著提高。旧API已经被废弃,不再介绍,新API在org.apache.hadoop.mapred...

2017-06-18 10:10:46

阅读数 882

评论数 0

Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)(草稿)

第7章 MapReduce进阶7.2 MapReduce工作机制本节将从作业的角度来解读一个作业时如何在MapReduce计算框架下提交、运行等。注意,在Hadoop 2.x中,MapReduce的工作机制已经被YARN的工作机制所替代。

2017-06-17 17:49:59

阅读数 815

评论数 0

Hadoop基础教程-第7章 MapReduce进阶(7.1 MapReduce过程)(草稿)

第7章 MapReduce进阶7.1 MapReduce过程7.1.1 input一般而言,数据文件都会上传到HDFS上,也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M(Hadoop 2.x默认的blockSize是128MB,Hadoop 1.x默认的blo...

2017-06-02 09:00:49

阅读数 1322

评论数 0

Hadoop基础教程-第6章 MapReduce入门(6.5 温度统计)(草稿)

第6章 MapReduce6.5 MapReduce应用6.5.1 温度统计《HADOOP权威指南 第3版 》教程中有个经典例子,既是温度统计。作者Tom White在书中写了程序和讲解了原理,认为读者们都会MapReduce程序的基本环境搭建部署,所以这里轻描淡写给带过了,对于初学者来说,这是一...

2017-06-02 08:43:47

阅读数 2438

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭