hadoop
文章平均质量分 57
oraclestudyroad
这个作者很懒,什么都没留下…
展开
-
Oracle启动和关闭命令
Oracle基础教程:Oracle启动和关闭,OracleService启动动后,就可以对数据库进行管理了,Oracle的启动和关闭是最基本的命令,在SQL*Plus中,启动Oracle必须是sys用户,命令格式是:startup open图24 Oracle服务启动Oracle服务关闭用命令:shutdown immediate图25 Oracle服务关闭转载 2016-08-09 09:20:13 · 2292 阅读 · 0 评论 -
Hadoop:HDFS架构
hadoop高级教程:HDFS架构,HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS的架构如图所示,总体上采用了master/slave架构,主要由以下几个组件组成:Client、NameNode、Secondary、NameNode和DataNode。下面分别对这几个组件进行介绍。转载 2016-07-20 09:16:45 · 449 阅读 · 0 评论 -
Hadoop YARN状态转换方式
hadoop入门教程:YARN状态转换方式,YARN状态机由一组状态组成,这些状态分为三类:初始状态、中间状态和最终状态。状态机从初始状态开始运行,经过一系列中间状态后,到达最终状态并退出。在一个状态机中,每个状态都可以接收一组特定事件,并根据具体的事件类型转换到另一个状态。当状态机转换到最终状态时,则退出。来源:CUUG官网在YARN中,每种状态转换由一个四元组表示,分别是转换前状态(p转载 2016-07-20 09:15:37 · 675 阅读 · 0 评论 -
Hadoop YARN事件库
hadoop入门教程:YARN事件库,YARN采用了基于事件驱动的并发模型,该模型能够大大增强并发性,从而提高系统整体性能。为了构建该模型,YARN将各种处理逻辑抽象成事件和对应事件调度器,并将每类事件的处理过程分割成多个步骤,用有限状态机表示。YARN中的事件处理模型可概括为图3-14所示。整个处理过程大致为:处理请求会作为事件进入系统,由中央异步调度器(Async-转载 2016-07-19 15:17:31 · 700 阅读 · 0 评论 -
Hadoop YARN RPC实现
hadoop培训教程:YARN RPC实现,当前存在非常多的开源RPC框架,比较有名的有Thrift、Protocol Buffers和Avro。同Hadoop RPC一样,它们均由两部分组成:对象序列化和远程过程调用(Protocol Buflers官方仅提供了序列化实现,未提供远程调用相关实现,但三方RPC库非常多)。相比于Hadoop RPC,它们有以下几个特点:跨语言特性。前面提到转载 2016-07-19 15:15:37 · 634 阅读 · 0 评论 -
Hadoop YARN工作流程
hadoop基础教程:YARN工作流程,运行在YARN上的应用程序主要分为两类:短应用程序和长应用程序,其中,短应用程序是指一定时间内(可能是秒级、分钟级或小时级,尽管天级别或者更长时间的也存在,但非常少)可运行完成并正常退出的应用程序,比如MapReduce作业(将在第8章介绍)、Tez DAG作业(将在第9章介绍)等,长应用程序是指不出意外,永不终止运行的应用程序,通常是一些服务,比如Stor转载 2016-07-19 15:13:41 · 560 阅读 · 0 评论 -
Hadoop YARN通信协议
hadoop基础教程:YARN通信协议,RPC协议是连接各个组件的“大动脉”,了解不同组件之间的RPC协议有助于我们更深入地学习YARN框架。在YARN中,任何两个需相互通信的组件之间仅有一个RPC协议,而对于任何一个RPC协议,通信双方有一端是Client,另一端为Server,且Client总是主动连接Server的,因此,YARN实际上采用的是拉式(pull-based)通信模型。如图2-1转载 2016-07-19 15:11:28 · 512 阅读 · 0 评论 -
Hadoop YARN基本组成结构
YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。YARN基本组成结构YARN总转载 2016-07-19 15:08:27 · 818 阅读 · 0 评论 -
Hadoop安全模式
Hadoop培训内容:安全模式,安全模式是这样一种特殊状态:当系统处于这个状态时,不接受任何对名称空间的修改,同时也不会对数据块进行复制或删除。NameNode在启动的时候会自动进入安全模式,也可以手动进入(不会自动离开)。NameNode从所有的DataNode接收心跳信号和块状态报告。块状态报告包括了某个DataNode所有的数据块列表,每个数据块都有一个指定的最小副本数。当NameN转载 2016-07-29 09:20:29 · 409 阅读 · 0 评论 -
Hadoop:HDFS空间回收
Hadoop培训课程:HDFS空间回收,1.文件的删除和恢复,2.减小副本系数1.文件的删除和恢复当用户或应用删除某个文件时,这个文件并没有立刻从HDFS中被删除。相反,HDFS将这个文件重命名,并转移到trash目录下。当文件还在trash目录下时,该文件可以被迅速恢复。文件在trash目录中保存的时间是可设置的,当超过设定的时间后,NameNode就会将该文件从namespac转载 2016-07-29 09:19:38 · 2860 阅读 · 0 评论 -
Hadoop:HDFS数据组织
Hadoop培训内容:HDFS数据组织,1.数据块,2.Staging,3.流水线式的复制1.数据块HDFS最适合的应用场景是处理大数据集合,同时这些应用多是一次写入多次读取,并且读的速度要满足流式读,即write-once-read-many的语义。一个典型的Block大小是64MB,因此文件总是按照64MB切分成Chunk,每个Chunk存储于不同的DataNode服务器中。转载 2016-07-29 09:18:43 · 555 阅读 · 0 评论 -
Hadoop:HDFS数据副本存放策略
Hadoop培训内容:HDFS数据副本存放策略,副本的存放是HDFS可靠性和高性能的关键。优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。这种特性需要做大量的调优,并需要经验的积累。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副本存放策略只是在这个方向上的第一步。实现这个策略的短期目标是验证它在生产转载 2016-07-29 09:17:28 · 8947 阅读 · 0 评论 -
Hadoop专业术语解释
hadoop基础教程:专业术语解释,为了便于本书讲解Hadoop YARN,本小节对Hadoop涉及的术语进行比较全面的介绍。(1)Hadoop 1.0Hadoop 1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTr转载 2016-07-19 09:31:41 · 552 阅读 · 0 评论 -
hadoop MapReduce基本框架对比
对比两代MapReduce的基本框架和编程模型来帮助读者理解YARN的基本设计思想。基本框架对比在Hadoop 1.0中,JobTracker由资源管理(由TaskScheduler模块实现)和作业控制(由JobTracker中多个模块共同实现)两部分组成,具体如图2-6所示。当前Hadoop MapReduce之所以在可扩展性、资源利用率和多框架支持等方面存在不足,正是由于Had转载 2016-07-19 09:29:39 · 733 阅读 · 0 评论 -
怎么调试Hadoop源代码
hadoop基础教程:调试Hadoop源代码,这里介绍两种调试Hadoop源代码的方法:利用Eclipse远程调试工具和打印调试日志。这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的Hadoop。本节主要介绍伪分布式工作模式下的Hadoop调试方法。(1)利用Eclipse进行远程调试下面以调试ResourceManager为例,介绍利用Eclipse远程调试的基本方法转载 2016-07-19 09:28:14 · 668 阅读 · 0 评论 -
怎么编译Hadoop源代码
在Linux环境下编译源代码之前,需进行以下准备工作:确保安装的Maven版本在3.0.2以上;Protocol Buffers安装版本为2.5.0;如果要启用findbugs,则需确认已经安装了Findbugs;如果要编译native code,则需确认安装了CMake 2.6或者更新版本;第一次编译代码,需确认可以连接互联网(Maven要从代码库中下载依转载 2016-07-19 09:26:58 · 581 阅读 · 0 评论 -
Hadoop RPC使用方法
Hadoop RPC使用方法,Hadoop RPC对外主要提供了两种接口(见类org.apache.hadoop.ipc.RPC),分别是:public static ProtocolProxy getProxy/waitForProxy(…):构造一个客户端代理对象(该对象实现了某个协议),用于向服务器发送RPC请求。public static Server RPC.Builde转载 2016-07-18 09:41:10 · 533 阅读 · 0 评论 -
Hadoop:MapReduce作业的生命周期
hadoop高级教程:MapReduce作业的生命周期,本节主要讲解Hadoop MapReduce作业的生命周期,即作业从提交到运行结束经历的整个过程。本节只是概要性地介绍MapReduce作业的生命周期,可看作后续几章的内容导读。作业生命周期中具体各个阶段的深入剖析将在后续的章节中进行。来源:CUUG官网假设用户编写了一个MapReduce程序,并将其打包成xxx.jar文件,然后使用转载 2016-07-20 09:17:48 · 859 阅读 · 0 评论 -
Hadoop:MapReduce架构设计
hadoop高级教程:MapReduce架构设计,和HDFS一样,MapReduce也是采用Master/Slave的架构,其架构图如下:它主要有以下4个部分组成:1)Client2)JobTrackerJobTracke负责资源监控和作业调度。JobTracker 监控所有TaskTracker 与job的健康状况,一旦发现失败,就将相应的任务转载 2016-07-20 09:18:59 · 478 阅读 · 0 评论 -
Hadoop:MapReduce编程接口体系结构
hadoop高级教程:MapReduce编程接口体系结构,MapReduce编程模型对外提供的编程接口体系结构如图3-1所示,整个编程模型位于应用程序层和MapReduce执行器之间,可以分为两层。第一层是最基本的Java API,主要有5个可编程组件,分别是InputFormat、Mapper、Partitioner、Reducer和OutputFormat。Hadoop自带了很多直接可用的In转载 2016-07-20 16:52:38 · 1894 阅读 · 0 评论 -
Hadoop:基础环境配置
Hadoop认证培训:基础环境配置,在开始使用Hadoop之前还需要有一个Hadoop的基础测试环境,这里搭建一个简单的伪分布式模式来提供一个测试环境。关于生产环境下的Hadoop的安装、部署将在后续章节详细讲解。系统平台:Hadoop支持GUN/Linux系统,并推荐使用Linux作为开发测试和生产环境的平台,Win32仅支持开发测试环境,不推荐其作为生产环境系统,这里推荐直接使用GUN转载 2016-07-22 09:22:57 · 485 阅读 · 0 评论 -
MPI和MapReduce对比
Hadoop认证教程:MPI和MapReduce对比,在当前最流行的高性能并行体系结构中比较常用的并行编程环境分为两类:消息传递和共享存储。MPI是基于消息传递的经典代表,是消息传递并行程序设计的标准,用于构建高可靠的、可伸缩的、灵活的分布式应用程。消息传递并行处理开销比较大,适合于大粒度的进程级并行计算,相对其他并行编程环境,它具有很好的可移植性,几乎能被所有的并行环境支持;还具有很好的转载 2016-07-22 09:21:23 · 2457 阅读 · 0 评论 -
Hadoop:MapReduce模型
Hadoop认证培训:MapReduce模型,在并行计算领域最著名的就是MPI模型,MPI是一种消息传递编程模型,在大规模科学计算领域已经成功应用了数年,而MapReduce则是一种近几年出现的相对较新的并行编程技术,但是MapReduce计算模型也是建立在数学和计算机科学基础上的,实践已经证明这种并行编程模型具有简单、高效的特点,最为重要的两个概念就是Map和Reduce,最基本的处理思想就是“转载 2016-07-22 09:20:32 · 863 阅读 · 0 评论 -
Hadoop:HDFS数据存储与切分
Hadoop入门教程:HDFS数据存储与切分,在Hadoop中数据的存储是由HDFS负责的,HDFS是Hadoop分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。那么HDFS相比于其他的文件系统有什么特征呢?简单总结有如下的基本特征:对于整个集群有单一的命名空间。数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文转载 2016-07-22 09:19:24 · 9756 阅读 · 0 评论 -
hadoop大数据与hadoop云计算
Hadoop入门课程:hadoop大数据与hadoop云计算,Hadoop最擅长的事情就是可以高效地处理海量规模的数据,这样Hadoop就和大数据及云计算结下了不解之缘。本节将先介绍与大数据相关的内容,然后讲解Hadoop、大数据以及云计算之间的关系,使读者从大数据和云计算的角度来认识Hadoop。正是由于大数据对系统提出了很多极限的要求,不论是存储、传输还是计算,现有计算技术难以满足大数转载 2016-07-22 09:17:55 · 1194 阅读 · 0 评论 -
Hadoop:HDFS配置参数
Hadoop大数据入门:HDFS配置参数,1.权限检查配置,2.Web服务器用户权限配置,3.其他相关配置1.权限检查配置一个非常重要的权限配置就是权限检查,可以通过dfs.permissions配置参数进行配置,代码如下:dfs.permissions = true如果是true,则打开权限检查系统;如果是false,权限检查就是关闭的,但是其他行为没有改变。这个转载 2016-08-01 09:34:05 · 911 阅读 · 0 评论 -
Hadoop:HDFS升级和回滚机制
Hadoop培训教程:HDFS升级和回滚机制,作为一个大型的分布式系统,Hadoop内部实现了一套升级机制,当在一个集群上升级Hadoop时,像其他的软件升级一样,可能会有新的bug或一些会影响现有应用的非兼容性变更出现。在任何有实际意义的HDFS系统中,丢失数据是不允许的,更不用说重新搭建启动HDFS了。当然,升级可能成功,也可能失败。如果失败了,那就用rollback进行回滚;如果过了一段时间转载 2016-08-01 09:32:17 · 3278 阅读 · 1 评论 -
Hadoop:HDFS负载均衡
Hadoop培训教程:HDFS负载均衡,HDFS的数据也许并不是非常均匀地分布在各个DataNode中。HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,一个常见的原因是在现有的集群上经常会增添新的DataNode。当新增一个数据块(一个文件的数据被保存在一系列的块中)时,NameNode在选择DataNode接收这个数据块之前,要考虑到很多因素。其中的一些因素如下:将数据块的转载 2016-08-01 09:30:34 · 2169 阅读 · 0 评论 -
Hadoop:HDFS的健壮性设计
HDFS的主要目标就是实现在失败情况下数据存储的可靠性。常见的三种失败情况是:NameNode failures、DataNode failures和网络分割(network partitions),这几种失败很容易导致HDFS中的组件失效。下面将分别从数据错误、集群均衡、数据完整性、元数据磁盘错误,以及快照五个方面阐述HDFS的健壮性设计。来源:CUUG官网1.数据错误每个Dat转载 2016-08-01 09:29:40 · 704 阅读 · 0 评论 -
Hadoop:hadoop的起缘和发展史
Hadoop入门培训:hadoop的起缘和发展史1.1 缘于搜索的小象追本溯源,Hadoop起源于Nutch,因此学习Hadoop就有必要了解一下这种渊源及Hadoop的发展简史。1.1.1 Hadoop的身世首先我们介绍一下Nutch的发展情况,Nutch是一个以Lucene为基础实现的搜索引擎系统,Lucene为Nutch提供了文本检索和索引的API,Nutch转载 2016-07-21 09:23:29 · 1351 阅读 · 0 评论 -
Hadoop:MapReduce作业配置与提交
Hadoop高级课程:MapReduce作业配置与提交,在MapReduce中,每个作业由两部分组成:应用程序和作业配置。其中,作业配置内容包括环境配置和用户自定义配置两部分。环境配置由Hadoop自动添加,主要由mapred-default.xml和mapred-site.xml两个文件中的配置选项组合而成;用户自定义配置则由用户自己根据作业特点个性化定制而成,比如用户可设置作业名称,以及Map转载 2016-07-21 09:22:17 · 1052 阅读 · 0 评论 -
Hadoop:配置文件介绍
Hadoop高级课程:配置文件介绍,在Hadoop中,Common、HDFS和MapReduce各有对应的配置文件,用于保存对应模块中可配置的参数。这些配置文件均为XML格式且由两部分构成:系统默认配置文件和管理员自定义配置文件。其中,系统默认配置文件分别是core-default.xml、hdfs-default.xml和mapred-default.xml,它们包含了所有可配置属性的默认值。而转载 2016-07-21 09:21:02 · 1882 阅读 · 0 评论 -
Hadoop:MapReduce回调机制
Hadoop高级教程:MapReduce回调机制,回调机制是一种常见的设计模式。它将工作流内的某个功能按照约定的接口暴露给外部使用者,为外部使用者提供数据,或要求外部使用者提供数据。Hadoop MapReduce对外提供的5个组件(InputFormat、Mapper、Partitioner、Reducer和OutputFormat)实际上全部属于回调接口。当用户按照约定实现这几个接口后转载 2016-07-21 09:19:42 · 592 阅读 · 0 评论 -
Hadoop:MapReduce Reporter参数
Hadoop高级教程:MapReduce Reporter参数,Reporter是MapReduce提供给应用程序的工具。如图所示,应用程序可使用Reporter中的方法报告完成进度(progress)、设定状态消息(setStatus)以及更新计数器(incrCounter)。Reporter是一个基础参数。MapReduce对外提供的大部分组件,包括InputFor转载 2016-07-20 16:56:42 · 1207 阅读 · 0 评论 -
Hadoop:MapReduce序列化
hadoop高级教程:MapReduce序列化,序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。在Hadoop MapReduce中,序列化的主要作用有两个:永久存储和进程间通信。为了能够读取或者存储Java对象,MapReduce编程模型要求用户输入和输出数据中的key和value必须是可序列化的。在Hadoop M转载 2016-07-20 16:55:05 · 729 阅读 · 0 评论 -
Hadoop 新旧MapReduce API比较
hadoop高级教程:新旧MapReduce API比较,从0.20.0版本开始,Hadoop同时提供了新旧两套MapReduce API。新API在旧API基础上进行了封装,使得其在扩展性和易用性方面更好。新旧版MapReduce API的主要区别如下。(1)存放位置旧版API放在org.apache.hadoop.mapred包中,而新版API则放在org.apache.had转载 2016-07-20 16:54:09 · 536 阅读 · 0 评论 -
Hadoop,RPC框架基础
RPC,远程程序调用,分布式计算中C/S模型的一个应用实例。同其他RPC框架一样,Hadoop分为四个部分:序列化层:支持多种框架实现序列化与反序列化;函数调用层:利用java反射与动态代理实现;网络传输层:基于TCP/IP的Socket机制;服务的处理框架:基于Reactor模式的事件驱动IO模型Hadoop RPC主要对外提供2种接口public static Prot转载 2016-07-18 09:39:37 · 414 阅读 · 0 评论 -
hadoop,HDFS常用Shell操作
(1)列出文件目录:hadoop fs -ls 目录路径查看HDFS根目录下的目录:hadoop fs -ls / 递归查看HDFS根目录下的目录:hadoop fs -lsr / (2)在HDFS中创建文件夹:hadoop fs -mkdir 文件夹名称在根目录下创建一个名称为di的文件夹:转载 2016-07-18 09:38:28 · 526 阅读 · 0 评论 -
hadoop:基于Java API实现的编译
Hadoop入门教程:基于Java API实现的编译,如果用户使用Eclipse开发,则需要导入hadoop-core-x.y.x.jar核心包,由于Eclipse会自动编译,则直接使用export功能导出词频统计的jar包即可;如果使用Linux中的vim开发,则应使用下面的方法进行编译并打包。在上节Java实现中有三个类:WordcountMapper.java、WordcountRe转载 2016-07-26 10:23:49 · 381 阅读 · 0 评论 -
Hadoop:Pipes接口实现
Hadoop入门教程:Pipes接口实现,Hadoop管道与流不同,流使用标准输入和输出让用户的Map和Reduce节点之间相互交流。而管道使用socket作为tasktracker与用户MapReduce进程之间的通道。下面我们同样使用Hadoop发行版中自带单词统计的例子,这个Map和Reduce函数是使用C/C++编写的,然后使用管道机制在Hadoop集群中运行用户的作业,在使用Hadoop转载 2016-07-26 10:22:58 · 662 阅读 · 0 评论