2016年03月_fkbush

11月 05月 04月 03月 02月

翻译第三章第四节 HADOOP文件系统

HADOOP有一个文件系统的抽象概念，HDFS只是它的一个实现。JAVA抽象类org.apache.hadoop.fs.FileSystem表示客户端到HADOOP文件系统的接口，还有其它几个具体实现。HADOOP经常用的如表3-1所示： HADOOP提供了许多文件系统的接口，它经常使用URI来选择正确的文件系统来交互。例如，上一节中我们遇到的操作H

2016-03-28 11:59:35 580

翻译第三章第三节命令行接口

我们通过与命令行与HDFS交互来了解它。HDFS还有许多其它接口，但是对开发者来说，命令行是最简单的，也是最熟悉的。我们将在一台机器上运行HDFS，所以首先根据附录A来搭建HADOOP伪分布式模式。以后我们会看如何在集群上运行HDFS并提供可靠性及容错处理。在伪分布式的配置中，有两个属性需要我们进一步解释。第一个是fs.defaultFS，设

2016-03-28 09:54:50 650

翻译第三章第二节 HDFS概念

Block（前文翻译的“块”,术语翻译成中文总是感觉很别扭，以后术语还是使用原文）磁盘有block大小，它是可以读写的最小量的数据。单一磁盘文件系统处理这些block中的数据，它通常是磁盘block大小的整数倍。文件系统的block大小通常是几kb，而磁盘block通常是512b。这对于只是简单读写任意长度文件的文件系统使用者来说是透明的。尽管如此，还是有一些工具来维护文件系

2016-03-25 14:23:22 764

翻译第三章 HADOOP分布式文件系统第一节 HDFS设计

当数据过大而不适用于单独一台机器的存储容量时，把它分到许多独立的机器上就很必要了。管理网络计算机存储的文件系统叫分布式文件系统。由于它是基于网络的，所有复杂的网络程序问题接踵而至，使分布式文件系统比普通的硬盘文件系统更复杂。例如，最大的挑战是使文件系统可以处理节点失败而不至于数据丢失。 HADOOP自带了一个分布式文件系统叫HDFS，即HADOOP Distributed F

2016-03-23 10:57:12 428

翻译第二章第四节扩大规模

我们已经看到MapReduce是如何在小规模输入上工作；现在是时候从总体上看一下这个系统以及大规模输入下的数据流。简单起见，目前为止使用的例子都是使用本地的文件系统。尽管如此，为了扩大规模，我们需要把数据存储在分布式文件系统中（典型的如HDFS,下一章中我们会学习它）。它允许HADOOP把MapReduce计算移到到每一个保存了部分数据的机器上，使用HADOOP资源管理系统，名

2016-03-22 16:39:35 387

翻译第二章第三节使用HADOOP分析数据

为了利用HADOOP提供的并行处理，我们需要把我们的查询表达成一个MapReduce。在小规模的本地化测试后，我们可以在一个集群上运行它。Map and Reduce MapReduce把处理分成两个阶段：map阶段和reduce阶段。每一阶段都有一个键值对作为输入和输出，键值的类型可以由程序员选择。程序员同时指定两个函数：map函数和reduce函数。map阶段

2016-03-21 16:03:23 421

翻译第二章第二节使用UNIX工具分析数据

数据集中在记录的每一年地球上最高的温度是多少？我们先不使用HADOOP来回答这个问题，因为这个信息可以提供效率的底线，也是校验我们的结果的一个有用方法。处理面向行的数据的经典工具是awk。Example2-2是一个计算每年最高温度的小脚本。

2016-03-21 10:12:40 538

原创 HADOOP namenode启动失败

这几天一直在搞hadoop:the definitive guide的翻译，开始按照附录A来搭建环境，测试运行都正常，今天想搭建eclipse开发环境，发现namenode页面又打不开了。jps查看进程，namenode没有启动，查看日志（hadoop/logs/xxxxnamenodexxx.log,发现如下错误：org.apache.hadoop.hdfs.server.com

2016-03-01 16:07:26 914