- 博客(8)
- 资源 (14)
- 收藏
- 关注
翻译 第三章 第四节 HADOOP文件系统
HADOOP有一个文件系统的抽象概念,HDFS只是它的一个实现。JAVA抽象类org.apache.hadoop.fs.FileSystem表示客户端到HADOOP文件系统的接口,还有其它几个具体实现。HADOOP经常用的如表3-1所示: HADOOP提供了许多文件系统的接口,它经常使用URI来选择正确的文件系统来交互。例如,上一节中我们遇到的操作H
2016-03-28 11:59:35 580
翻译 第三章 第三节 命令行接口
我们通过与命令行与HDFS交互来了解它。HDFS还有许多其它接口,但是对开发者来说,命令行是最简单的,也是最熟悉的。 我们将在一台机器上运行HDFS,所以首先根据附录A来搭建HADOOP伪分布式模式。以后我们会看如何在集群上运行HDFS并提供可靠性及容错处理。 在伪分布式的配置中,有两个属性需要我们进一步解释。第一个是fs.defaultFS,设
2016-03-28 09:54:50 650
翻译 第三章 第二节 HDFS概念
Block(前文翻译的“块”,术语翻译成中文总是感觉很别扭,以后术语还是使用原文) 磁盘有block大小,它是可以读写的最小量的数据。单一磁盘文件系统处理这些block中的数据,它通常是磁盘block大小的整数倍。文件系统的block大小通常是几kb,而磁盘block通常是512b。这对于只是简单读写任意长度文件的文件系统使用者来说是透明的。尽管如此,还是有一些工具来维护文件系
2016-03-25 14:23:22 764
翻译 第三章 HADOOP分布式文件系统 第一节 HDFS设计
当数据过大而不适用于单独一台机器的存储容量时,把它分到许多独立的机器上就很必要了。管理网络计算机存储的文件系统叫分布式文件系统。由于它是基于网络的,所有复杂的网络程序问题接踵而至,使分布式文件系统比普通的硬盘文件系统更复杂。例如,最大的挑战是使文件系统可以处理节点失败而不至于数据丢失。 HADOOP自带了一个分布式文件系统叫HDFS,即HADOOP Distributed F
2016-03-23 10:57:12 428
翻译 第二章 第四节 扩大规模
我们已经看到MapReduce是如何在小规模输入上工作;现在是时候从总体上看一下这个系统以及大规模输入下的数据流。简单起见,目前为止使用的例子都是使用本地的文件系统。尽管如此,为了扩大规模,我们需要把数据存储在分布式文件系统中(典型的如HDFS,下一章中我们会学习它)。它允许HADOOP把MapReduce计算移到到每一个保存了部分数据的机器上,使用HADOOP资源管理系统,名
2016-03-22 16:39:35 387
翻译 第二章 第三节 使用HADOOP分析数据
为了利用HADOOP提供的并行处理,我们需要把我们的查询表达成一个MapReduce。在小规模的本地化测试后,我们可以在一个集群上运行它。Map and Reduce MapReduce把处理分成两个阶段:map阶段和reduce阶段。每一阶段都有一个键值对作为输入和输出,键值的类型可以由程序员选择。程序员同时指定两个函数:map函数和reduce函数。map阶段
2016-03-21 16:03:23 421
翻译 第二章 第二节 使用UNIX工具分析数据
数据集中在记录的每一年地球上最高的温度是多少?我们先不使用HADOOP来回答这个问题,因为这个信息可以提供效率的底线,也是校验我们的结果的一个有用方法。 处理面向行的数据的经典工具是awk。Example2-2是一个计算每年最高温度的小脚本。
2016-03-21 10:12:40 538
原创 HADOOP namenode启动失败
这几天一直在搞hadoop:the definitive guide的翻译,开始按照附录A来搭建环境,测试运行都正常,今天想搭建eclipse开发环境,发现namenode页面又打不开了。jps查看进程,namenode没有启动,查看日志(hadoop/logs/xxxxnamenodexxx.log,发现如下错误:org.apache.hadoop.hdfs.server.com
2016-03-01 16:07:26 914
dvisvgm.zip
2020-07-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人