Hadoop
文章平均质量分 75
Norris_Zhang
这个作者很懒,什么都没留下…
展开
-
配置Hadoop
Hadoop的各个组件是通过XML配置的。2.0以后,配置文件的位置发生了小变化,我安装的Hadoop 2.4.1,配置文件的位置在$HADOOP_INSTALL/etc/hadoop/在初期运行MapReduce DEMO时,我们只需关注三个基本配置就好:core-site.xmlhdfs-site.xmlyarn-site.xml(2.0后的版本,MapReduce运行在y原创 2014-08-18 13:54:19 · 2561 阅读 · 0 评论 -
在Linux上安装Hadoop
先决条件:Hadoop是用JAVA写的,所以首先要安装Java。在Ubuntu上安装JDK见:http://blog.csdn.net/microfhu/article/details/7667393我下载的Hadoop版本是2.4.1,要求至少安装JDK 6以上。Linux是唯一支持的生产环境,Unix,Windows或者Mac OS可以作为开发环境。在Windows上安装H原创 2014-08-08 01:13:41 · 1864 阅读 · 0 评论 -
Hadoop HDFS (1)
HDFS是Hadoop Distributed Filesystem,Hadoop分布式文件系统。当数据大到一台机器无法存储时,就要把它分散到多台机器上去,通过网络管理多台计算机上的存储空间的文件系统,就称为分布式文件系统。网络程序的复杂性使得分布式文件系统比普通的磁盘文件系统复杂得多,例如其中最大的挑战之一就是要容错,要在其中一个或几个节点死掉后,仍能保证数据完整。HDF翻译 2014-09-05 17:34:22 · 1054 阅读 · 0 评论 -
Hadoop HDFS (2) HDFS概念
1. Blocks(块)硬盘上有块,代表能够读取和写入的最小的data单位,通常是512字节。基于单硬盘的文件系统也有块的概念,通常是把硬盘上的一组块集合在一起成为一个块,一般有几KB大小。这些对于文件系统的使用者都是透明的,使用者只知道往硬盘上写了一定大小的文件,或从硬盘上读了一定大小的文件。当然有些维护命令,比如df和fsck,就是在块级上的操作。HDFS也有块(blo翻译 2014-09-10 10:23:58 · 1868 阅读 · 0 评论 -
Hadoop HDFS Namenode启动不成功
今天在Pseudodistributed mode下启动HDFS见配置http://blog.csdn.net/norriszhang/article/details/38659321但是在试验向HDFS里拷贝文件时,发现出错,说没有找到namenode,用jps查看,有datanode和secondary namenode都启动起来了,但NameNode没有启动起来,用netst原创 2014-09-11 11:25:23 · 7683 阅读 · 0 评论 -
Hadoop HDFS (2) HDFS命令行接口
有多种接口可以访问HDFS,其中命令行接口是最简单,也是程序员最熟悉的方式。在本例中,将采用pseusodistributed mode的HDFS,用一台机器来模拟分布式的文件系统。pseudodistributed mode的配置参见:http://blog.csdn.net/norriszhang/article/details/38659321这里再重新说一下两处配置的含义:翻译 2014-09-11 17:31:26 · 2230 阅读 · 0 评论 -
Hadoop HDFS (3) JAVA访问HDFS
现在我们来深入了解一下Hadoop的FileSystem类。这个类是用来跟Hadoop的文件系统进行交互的。虽然我们这里主要是针对HDFS,但是我们还是应该让我们的代码只使用抽象类FileSystem,这样我们的代码就可以跟任何一个Hadoop的文件系统交互了。在写测试代码时,我们可以用本地文件系统测试,部署时使用HDFS,只需配置一下,不需要修改代码了。在Hadoop 1.x以后的版本中引入翻译 2014-09-28 23:34:19 · 5126 阅读 · 1 评论 -
Hadoop HDFS (4) Hadoop Archives
用HDFS存储小文件是不经济的,因为每个文件都存在一个block里,每个block的metadata又在namenode的内存里存着,所以,大量的小文件,会吃掉大量的namenode的内存。(注意:一个小文件占用一个block,但是这个block的大小不是设定的值,比如设定每个block是128M,但是一个1M的文件存在一个block里,实际占用的datanode的硬盘大小是1M,而不是128M。翻译 2014-10-09 14:47:32 · 2337 阅读 · 0 评论 -
Hadoop HDFS (3) JAVA访问HDFS之二 文件分布式读写策略
先把上节未完成的部分补全,再剖析一下HDFS读写文件的内部原理列举文件FileSystem(org.apache.hadoop.fs.FileSystem)的listStatus()方法可以列出一个目录下的内容。public FileStatus[] listStatus(Path f) throws FileNotFoundException, IOException;pu翻译 2014-09-30 16:00:38 · 3868 阅读 · 0 评论