- 博客(10)
- 资源 (7)
- 收藏
- 关注
原创 Hadoop基础教程-第8章 Zookeeper(8.2 Zookeeper下载与安装)(草稿)
第8章 Zookeeper8.2 Zookeeper安装与配置8.2.1 Zookeeper下载Zookeeper官网:http://zookeeper.apache.org 在首页“Getting Started”区域找到”download”链接 在新页面中再次单击”download”链接,将跳转到下载页面http://www.apache.org/dyn/closer.cgi/zook
2017-06-27 18:06:15 944
原创 Hadoop基础教程-第8章 Zookeeper(8.1 Zookeeper介绍)(草稿)
第8章 Zookeeper8.1 Zookeeper介绍8.1.1 单点故障问题单点故障(single point of failure),从英文字面上可以看到是单个点发生的故障,通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫痪。这也是在设计IT基础设施时应避免的。解决单点问题基本上有3个方向: (1)使用公共缓存,所有服务节点都将
2017-06-27 17:45:30 1003
原创 Hadoop基础教程-第7章 MapReduce进阶(7.7 MapReduce 全排序)
第7章 MapReduce进阶7.7 MapReduce 全排序7.7.1 方法1MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完成。 并行程度不高,无法发挥分布式计算的特点。7.7.1 方法2MapReduce全排序的方法
2017-06-25 22:17:21 1093
原创 Hadoop基础教程-第7章 MapReduce进阶(7.6 MapReduce 二次排序)
第7章 MapReduce进阶7.6 MapReduce 二次排序
2017-06-23 15:11:17 1138
原创 Hadoop基础教程-第7章 MapReduce进阶(7.5 MapReduce 连接)
第7章 MapReduce进阶7.4 MapReduce 连接连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。
2017-06-21 21:27:27 965
原创 Hadoop基础教程-第7章 MapReduce进阶(7.4 自定义Key类型)
第7章 MapReduce进阶7.4 MapReduce 连接连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。
2017-06-18 22:38:44 1149
原创 Hadoop基础教程-第7章 MapReduce进阶(7.3 MapReduce API)(草稿)
第7章 MapReduce进阶7.3 MapReduce API从Hadoop0.20开始Hadoop提供了两套MapReduce API,新的API在旧API基础上进行封装,在扩展性和易用性等方面有显著提高。旧API已经被废弃,不再介绍,新API在org.apache.hadoop.mapreduce包中,下面将对该包下的重要类和接口进行介绍。7.3.1 序列化与Writable接口序列化是指将对
2017-06-18 10:10:46 1263
原创 Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)(草稿)
第7章 MapReduce进阶7.2 MapReduce工作机制本节将从作业的角度来解读一个作业时如何在MapReduce计算框架下提交、运行等。注意,在Hadoop 2.x中,MapReduce的工作机制已经被YARN的工作机制所替代。
2017-06-17 17:49:59 1086
原创 Hadoop基础教程-第7章 MapReduce进阶(7.1 MapReduce过程)(草稿)
第7章 MapReduce进阶7.1 MapReduce过程7.1.1 input一般而言,数据文件都会上传到HDFS上,也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M(Hadoop 2.x默认的blockSize是128MB,Hadoop 1.x默认的blockSize是64MB)。MapReduce计算框架首先会用InputFormat的子类FileInpu
2017-06-02 09:00:49 2127
原创 Hadoop基础教程-第6章 MapReduce入门(6.5 温度统计)(草稿)
第6章 MapReduce6.5 MapReduce应用6.5.1 温度统计《HADOOP权威指南 第3版 》教程中有个经典例子,既是温度统计。作者Tom White在书中写了程序和讲解了原理,认为读者们都会MapReduce程序的基本环境搭建部署,所以这里轻描淡写给带过了,对于初学者来说,这是一个“天坑”,程序跑步起来,也就消磨了Hadoop初学者的兴趣和意志。这里根据《HADOOP权威指南 第3
2017-06-02 08:43:47 4639 2
小巧的屏幕调节软件flux
2019-08-10
基于elasticsearch 6.x的新闻搜索项目代码
2019-07-17
Xftp6官方个人版
2018-11-11
Xshell 6 官方个人版
2018-11-11
hibernate5+spring4+springmvc+maven基本框架整合样例代码
2018-07-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人