![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop-2.x
讲述Hadoop-2.x中一些的常用操作,遇到的问题及解决方案
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
skyWalker_ONLY
专注于HadoopHiveHBase等大数据生态圈,对机器学习算法具有极大兴趣
展开
-
Hadoop-2.2.0学习之一Hadoop-2.2.0变化简介
Hadoop-2.2.0在Hadoop-1.x的基础上进行了重大改进,主要体现在HDFS和MapReduce上。下面大体介绍HDFS和MapReduce改进的地方。首先是HDFS联合。众所周知,在Hadoop-1.x版本中,集群中只有一个NameNode节点,一旦该节点失效就不能自动切换到备用节点,这也是Hadoop-1.x被人诟病的地方之一。为了水平的扩展NameNode服务,在2.x版原创 2014-01-06 13:00:05 · 3863 阅读 · 2 评论 -
Hadoop-2.4.1学习之Streaming编程
本篇文章学习了如何编写hadoop streaming程序,重点讲述了工作原理及用到的各种参数原创 2014-11-17 11:11:24 · 4397 阅读 · 1 评论 -
Hadoop-2.4.1学习之HDFS文件权限和ACL
之前在论坛看到一个关于HDFS权限的问题,当时无法回答该问题。无法回答并不意味着对HDFS权限一无所知,而是不能准确完整的阐述HDFS权限,因此决定系统地学习HDFS文件权限。HDFS的文件和目录权限模型共享了POSIX(Portable Operating System Interface,可移植操作系统接口)模型的很多部分,比如每个文件和目录与一个拥有者和组相关联,文件或者目录对于拥有者、组内原创 2014-11-02 14:40:02 · 17458 阅读 · 4 评论 -
Hadoop-2.4.1学习之使用Quorum Journal Manager的HDFS的高可用性(三)
在学习了如何配置HA后,接下来是启动和管理HA。要启动HA集群,首先要在所有运行JournalNode的主机上启动JournalNodes守护进程,可以在每台主机上执行命令hdfs journalnode启动journalnode守护进程。在journalnode守护进程启动完成之后,必须首先同步两个 NameNode硬盘上的元数据,具体如下:l 如果正在搭建全新的HDFS集群,应该首先在其原创 2014-10-17 21:33:23 · 3422 阅读 · 1 评论 -
Hadoop-2.4.1学习之QJM HA的自动故障转移
前面学习了使用命令hdfs haadmin -failover手动进行故障转移,在该模式下,即使现役NameNode已经失效,系统也不会自动从现役NameNode转移到待机NameNode,下面学习如何配置部署HA自动进行故障转移。自动故障转移为HDFS部署增加了两个新组件:ZooKeeper和ZKFailoverController(ZKFC)进程。ZooKeeper是维护少量协调数据,通知客户原创 2014-10-20 15:11:43 · 7528 阅读 · 2 评论 -
Hadoop-2.4.1学习之Mapper和Reducer
Hadoop-2.4.1中MapReduce作业的Mapper和Reducer综述原创 2014-11-05 11:30:45 · 11503 阅读 · 9 评论 -
Hadoop-2.4.1学习之ResourceManager重启
本文翻译自hadoop官网的ResourceManager Restart一文,主要讲解了ResourceManager在遇到故障重启后而不影响重启前的应用程序的特性,以及如何配置ResourceManager重启翻译 2014-11-27 14:38:29 · 9749 阅读 · 0 评论 -
Hadoop-2.4.1学习之容量调度器
本篇文章学习了hadoop中容量调度器的特性,并详细描述了配置参数原创 2014-11-21 17:00:34 · 7013 阅读 · 0 评论 -
Hadoop-2.4.1学习之Map任务源码分析(下)
对Map任务的SORT阶段源代码进行了学习和分析原创 2014-12-16 14:13:35 · 2761 阅读 · 0 评论 -
Hadoop-2.4.1学习之RawComparator及其实现
本篇文章结合源代码学习了RawComparator接口及其实现,并分析了不同实现的区别原创 2014-12-19 14:59:27 · 4419 阅读 · 1 评论 -
Hadoop-2.4.1学习之高可用ResourceManager
本文介绍了ResourceManager的HA特性,并详细描述了如何配置RM的HA及自动故障转移原创 2014-12-04 16:33:15 · 9569 阅读 · 0 评论 -
Hadoop-2.4.1学习之Writable及其实现
本文学习了Writable及WritableComparable接口,并结合IntWritable和Text类介绍了具体的实现,最后给出了一个自定义的WritableComparable类原创 2014-12-23 09:49:18 · 3738 阅读 · 0 评论 -
Hadoop-2.4.1学习之InputFormat及源代码分析
本篇文章讲述了InputFormat及其子类,并结合源代码详细分析了FileInputFormat如何读取InputSplit及处理行跨越两个InputSplit的问题原创 2015-01-13 16:57:46 · 4976 阅读 · 0 评论 -
Hadoop-2.4.1学习之Map任务源码分析(上)
通过源代码分析了Map任务的map阶段原创 2014-12-10 14:45:21 · 3153 阅读 · 4 评论 -
Hadoop-2.4.1学习之使用Quorum Journal Manager的HDFS的高可用性(二)
在了解了HA的特性和架构后,接下来学习如何配置管理HA,在学习与配置HA有关的参数之前,先明确部署HA所需要的主机数量。由HA的架构可知,存在两个NameNode主机,一个为现役NameNode主机,一个为待机NameNode主机,二者的硬件配置应该相同,同时还要有运行JournalNodes的主机。由于JournalNode守护进程是相对轻量级的,那么这些守护进程可与其它Hadoop守护进程,如原创 2014-10-14 16:06:55 · 3634 阅读 · 3 评论 -
Hadoop-2.4.1学习之配置管理HDFS联盟
Hadoop-1.x版本中的HDFS架构在整个集群中只允许一个命名空间,由一个NameNode管理整个命名空间,Hadoop-2.x版本中的HDFS联盟通过支持多个NameNode和命名空间解决了之前架构的局限性。HDFS联盟的配置管理是向后兼容的,允许现存的单节点NameNode配置在不需要任何修改的情况下工作正常。新的配置管理允许集群中的所有节点使用相同的配置而不需要根据节点的不同类型部署不同原创 2014-10-13 16:53:23 · 4496 阅读 · 0 评论 -
Hadoop-2.2.0学习之二HDFS联盟
在学习Hadoop-2.x版本中的HDFS之前先看一下目前普遍使用中的Hadoop-1.x版本的HDFS结构,有助于更好地理解2.x版本中HDFS的变化所带来的好处。先看看2.x版本之前的HDFS结构图,如下所示。从上面的结构可以看出,HDFS主要包括两层:Namespace(命名空间)和块存储(BlockStorage)。命名空间由目录、文件和块组成,支持文件系统相关的所有命名空间操原创 2014-01-08 10:10:39 · 4389 阅读 · 0 评论 -
Hadoop-2.2.0学习之三YARN简介
MapReduce在hadoop-0.23版本中进行了完全的检查修改,并发展为了现在称之为的MapReduce2.0(MRv2)或者YARN。YARN的基本想法是将JobTracker的两个主要功能资源管理和作业调度监控分开为独立的后台进程,目标是拥有一个全局ResourceManager (RM)和每个应用程序一个的ApplicationMaster (AM)。一个应用程序或者是从经典MapRe原创 2014-01-13 10:22:47 · 3948 阅读 · 0 评论 -
Hadoop-2.4.1学习之以伪分布模式部署Hadoop
Hadoop-2.x版本与Hadoop-1.x除了整体架构上的变化之外,比如HDFS联盟,YARN等,目录结构、配置管理及执行脚本都有了很大的改变,具体哪些地方做了改变还需要通过持续地学习来掌握。在此之前,先学习如何以单机模式和伪分布模式运行Hadoop。单机模式默认情况下,Hadoop作为单个Java进程以非分布式模式运行,该模式非常适于用作Debugg。下面展示了Hadoop-2.4.原创 2014-07-17 14:00:55 · 5979 阅读 · 4 评论 -
Hadoop-2.4.1学习之SecondaryNameNode、CheckpointNode、BackupNode
在Hadoop-2.x版本之前只存在SecondaryNameNode,没有CheckpointNode、BackupNode的概念,在2.x版本中引入了后两者,增强了对NameNode的同步和备份。现在就学习一下2.x版本中的SecondaryNameNode、CheckpointNode、BackupNode,在开始之前先了解一下NameNode中的两个重要文件fsimage和edits以及N原创 2014-09-07 16:23:55 · 3571 阅读 · 1 评论 -
Hadoop-2.4.1学习之配置管理Hadoop
Hadoop-2.X较Hadoop-1.X有了很大的变化,比如YARN将JobTracker的两个主要功能资源管理和作业调度监控分开为独立的后台进程,配置文件及参数也有了很大变化,目录结构的调整等。另外在Hadoop-2.X版本中,通常专门指定一台主机为NameNode,另一台主机做为ResourceManager,这两台主机为masters,集群中剩余的主机既做为DataNode也做为NodeM原创 2014-08-26 16:51:02 · 4685 阅读 · 0 评论 -
Hadoop-2.4.1学习之创建fsimage和edits源码分析
在Hadoop中fsimage保存最新的检查点信息,edits保存自最新检查点后的命名空间的变化。在分析hdfs namenode–format的源代码时,已经明确了该过程根据配置文件的信息创建fsimage和edits文件,这篇文章具体分析一下创建fsimage和edits文件的源代码。原创 2014-09-24 15:15:37 · 3154 阅读 · 0 评论 -
Hadoop-2.4.1学习之NameNode -format源码分析
Hadoop-2.4.1 namenode格式化的源代码分析原创 2014-09-16 16:36:10 · 6068 阅读 · 0 评论 -
Hadoop-2.4.1学习之ViewFs
视图文件系统(View File System ,ViewFs)提供了管理多个Hadoop文件系统命名空间的方式,该系统在HDFS联盟的集群中有多个NameNode(因此有多个命名空间)是特别有用。ViewFs与某些Linux或Unix系统的客户端挂载表类似,可以被用于创建个性化的命名空间视图和整个集群共同的视图。本篇文章基于拥有几个集群,集群互相联合形成多个命名空间的Hadoop系统,也学习了在原创 2014-10-22 11:37:14 · 9203 阅读 · 2 评论 -
Hadoop-2.4.1学习之HDFS快照
HDFS快照是文件系统的只读的实时的拷贝,可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份,对用户错误的保护和灾难恢复。HDFS的快照实现是高效的:l 快照的创建时瞬间完成的,排除查找inode的时间,需要花费O(1),即常数时间。l 只有执行与快照相关的修改时才需要额外的内存,内存开销为O(M),M为修改的文件或者目录的数量。l DataNodes中的块不会原创 2014-10-23 14:03:56 · 5035 阅读 · 1 评论 -
Hadoop-2.4.1学习之如何确定Mapper数量
本篇文章通过源代码分析了在输入格式为TextInputFormat的情况下,hadoop-2.4.1如何确定Mapper任务的数量原创 2014-11-11 16:23:34 · 7429 阅读 · 2 评论 -
Hadoop-2.4.1学习之Hadoop命令
在Hadoop-1.x版本中主要使用hadoop脚本执行各种命令,包括运行jar文件(jar),运行文件系统客户端(fs),运行HDFS管理客户端(dfsadmin)等,但Hadoop-2.x将hadoop脚本拆分为hadoop、hdfs、mapred几个脚本,并新增了yarn脚本用于执行与yarn有关的命令。在命令行直接执行上述脚本都会输出该脚本的使用方法,比如hadoop。其中--config原创 2014-10-09 15:14:39 · 2518 阅读 · 0 评论 -
Hadoop-2.4.1学习之使用Quorum Journal Manager的HDFS的高可用性(一)
在Hadoop-2.x版本之前,HDFS集群中的NameNode是单点故障的,即整个集群中只存在一个NameNode,虽然存在SecondaryNameNode,但由于二者关于命名空间的数据有可能不一致,比如NameNode在两次检查点间隔之间出现问题,这势必会导致部分数据的丢失。如果NameNode所在的主机或者namenode进程不可用,整个集群直到NameNode重启或者转移到Seconda原创 2014-10-11 16:16:53 · 2372 阅读 · 0 评论 -
Hadoop-2.4.1学习之edits和fsimage查看器
在hadoop中edits和fsimage是两个至关重要的文件,其中edits负责保存自最新检查点后命名空间的变化,起着日志的作用,而fsimage则保存了最新的检查点信息。这个两个文件中的内容使用普通文本编辑器是无法直接查看的,幸运的是hadoop为此准备了专门的工具用于查看文件的内容,这些工具分别为oev和oiv,可以使用hdfs调用执行。原创 2014-10-31 10:31:03 · 7249 阅读 · 1 评论 -
Hadoop-2.4.1学习之FileSystem及实战
本篇文章学习了Hadoop的FileSystem及其子类,详细介绍了get和newInstance的区别并介绍了若干API方法,最后给出了一个简单的实例原创 2014-12-30 13:40:29 · 8774 阅读 · 3 评论