2016年07月_oraclestudyroad

转载 Hadoop安全模式

Hadoop培训内容：安全模式，安全模式是这样一种特殊状态：当系统处于这个状态时，不接受任何对名称空间的修改，同时也不会对数据块进行复制或删除。NameNode在启动的时候会自动进入安全模式，也可以手动进入(不会自动离开)。NameNode从所有的DataNode接收心跳信号和块状态报告。块状态报告包括了某个DataNode所有的数据块列表，每个数据块都有一个指定的最小副本数。当NameN

2016-07-29 09:20:29 409

转载 Hadoop：HDFS空间回收

Hadoop培训课程：HDFS空间回收，1.文件的删除和恢复，2.减小副本系数1.文件的删除和恢复当用户或应用删除某个文件时，这个文件并没有立刻从HDFS中被删除。相反，HDFS将这个文件重命名，并转移到trash目录下。当文件还在trash目录下时，该文件可以被迅速恢复。文件在trash目录中保存的时间是可设置的，当超过设定的时间后，NameNode就会将该文件从namespac

2016-07-29 09:19:38 2860

转载 Hadoop：HDFS数据组织

Hadoop培训内容：HDFS数据组织，1.数据块，2.Staging，3.流水线式的复制1.数据块HDFS最适合的应用场景是处理大数据集合，同时这些应用多是一次写入多次读取，并且读的速度要满足流式读，即write-once-read-many的语义。一个典型的Block大小是64MB，因此文件总是按照64MB切分成Chunk，每个Chunk存储于不同的DataNode服务器中。

2016-07-29 09:18:43 554

转载 Hadoop：HDFS数据副本存放策略

Hadoop培训内容：HDFS数据副本存放策略，副本的存放是HDFS可靠性和高性能的关键。优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。这种特性需要做大量的调优，并需要经验的积累。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副本存放策略只是在这个方向上的第一步。实现这个策略的短期目标是验证它在生产

2016-07-29 09:17:28 8945

转载 Hadoop：HDFS的数据复制

Hadoop认证培训：HDFS的数据复制，HDFS被设计成在一个大集群中可以跨机器可靠地存储海量的文件。它将每个文件存储成Block序列，除了最后一个Block，所有的Block都是同样的大小。文件的所有Block为了容错都会被冗余复制存储。每个文件的Block大小和Replication因子都是可配置的。Replication因子在文件创建的时候会默认读取客户端的HDFS配置，然后创建，

2016-07-28 10:23:12 3662

转载 Hadoop：HDFS文件存取机制

Hadoop培训认证：HDFS文件存取机制，一个分布式文件系统最基本的功能就是读和写，本节将描述HDFS的文件存取机制。1.HDFS读文件数据流在读取HDFS的文件时，首先客户端调用FileSystem的open( )函数打开文件，DistributedFileSystem用RPC调用元数据节点，得到文件的数据块信息。对于每一个数据块，元数据节点返回保存数据块的数据节点的地址。Di

2016-07-28 10:22:05 706

转载 Hadoop：NameNode和Secondary NameNode

Hadoop培训教程：NameNode和Secondary NameNode，NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件edits。当一个NameNode启动时，它首先从一个映像文件(fsimage)中读取HDFS的状态，接着执行日志文件中的编辑操作。然后将新的HDFS状态写入fsimage中，并使用一个空的edits文件开始正常操作。因为NameNode只有在启动阶

2016-07-28 10:21:02 609

转载 Hadoop：HDFS的Master/Slave架构

Hadoop培训课程：HDFS的Master/Slave架构，相比于基于P2P模型的分布式文件系统架构，HDFS采用的是基于Master/Slave主从架构的分布式文件系统，一个HDFS集群包含一个单独的Master节点和多个Slave节点服务器，这里的一个单独的Master节点的含义是HDFS系统中只存在一个逻辑上的Master组件。一个逻辑的Master节点可以包括两台物理主机，即两台Mast

2016-07-28 10:19:43 5144

转载 Hadoop：HDFS的设计目标

Hadoop培训内容：HDFS的设计目标，HDFS作为Hadoop的分布式文件存储系统和传统的分布式文件系统有很多相同的设计目标。例如，在可伸缩性及可用性上。但是HDFS的设计前提是假设和较早的文件系统有着明显的不同之处。下面简述HDFS的设计思路和目标。来源：CUUG官网1.硬件错误硬件组件错误是常态，而非异常情况。HDFS可能由成百上千的服务器组成，每一个服务器都是廉价通用的普

2016-07-27 11:18:30 2843

转载 Hadoop：HDFS的特性

Hadoop培训内容：HDFS的特性，HDFS和传统的分布式文件系统相比较，具有以下明显的特性：高度容错，可扩展性及可配置性强。由于容错性高，因此非常适合部署利用通用的硬件平台构建容错性很高的分布式系统。容易扩展是指扩展无须改变架构只需要增加节点即可，同时可配置性很强。跨平台。使用Java语言开发，支持多个主流平台环境。shell命令接口。和Linux文件系统一样，拥有文件

2016-07-27 11:17:22 1014

转载 Hadoop：HDFS的NameNode介绍

Hadoop入门教程：HDFS的NameNode介绍，HDFS采用Master/Slave架构。NameNode就是HDFS的Master架构。HDFS系统包括一个NameNode组件，主要负责HDFS文件系统的管理工作，具体包括名称空间(namespace)管理，文件Block管理。NameNode提供的是始终被动接收服务的server，主要有三类协议接口：ClientProtocol接

2016-07-27 11:16:07 919

转载 Hadoop：基于Pipes实现作业提交

Hadoop入门教程：基于Pipes实现作业提交，在提交Hadoop Pipes作业之前首先需要将编译好的Pipes可执行程序上传到HDFS上。例如，我们将编译好的词频统计程序wordcount-simple上传到HDFS上的/user/nuoline/wordcount/bin目录下，如果wordcount-simple可执行程序就在当前目录下，则使用以下命令：Hadoop fs -pu

2016-07-27 11:13:51 418

转载 hadoop:基于Streaming实现作业提交

Hadoop入门教程：基于Streaming实现作业提交，通过执行2.4.2中Streaming方式的编译命令后，会得到可执行程序WordcountMap和WordcountReduce，分别为词频统计的Map和Reduce，然后就可以使用Hadoop Streaming命令来实现作业提交。提交运行脚本的命令如下：#!/bin/bash#提交运行脚本HADOOP_VERSI

2016-07-26 10:26:24 638

转载 hadoop：基于Streaming实现的编译

Hadoop入门教程：基于Streaming实现的编译，在Streaming接口实现的程序中，用户的Map和Reduce都是单独的可执行程序，在上节实现中是使用C++实现的，包括Map程序WordcountMap.cpp，Reduce程序WordcountReduce.cpp。由于写Streaming程序不依赖于Hadoop的类库，因此可以像一般的C++程序一样进行编译，例如这里使用make进行编

2016-07-26 10:25:02 253

转载 hadoop：基于Java API实现的编译

Hadoop入门教程：基于Java API实现的编译，如果用户使用Eclipse开发，则需要导入hadoop-core-x.y.x.jar核心包，由于Eclipse会自动编译，则直接使用export功能导出词频统计的jar包即可;如果使用Linux中的vim开发，则应使用下面的方法进行编译并打包。在上节Java实现中有三个类：WordcountMapper.java、WordcountRe

2016-07-26 10:23:49 380

转载 Hadoop：Pipes接口实现

Hadoop入门教程：Pipes接口实现，Hadoop管道与流不同，流使用标准输入和输出让用户的Map和Reduce节点之间相互交流。而管道使用socket作为tasktracker与用户MapReduce进程之间的通道。下面我们同样使用Hadoop发行版中自带单词统计的例子，这个Map和Reduce函数是使用C/C++编写的，然后使用管道机制在Hadoop集群中运行用户的作业，在使用Hadoop

2016-07-26 10:22:58 662

转载 hadoop：Streaming接口实现

Hadoop入门教程：Streaming接口实现，Streaming接口就是使用UNIX标准流作为Hadoop和程序之间的接口，可以使用任何语言，仅需要编写的MapReduce程序能够读取标准输入并写入标准输出，Hadoop Streaming可以帮助用户创建和运行一类特殊的MapReduce作业，这些作业是由一些可执行文件或脚本文件充当Mapper或Reducer。如果一个可执行文件被用

2016-07-26 10:21:58 653

转载 Hadoop：Java API实现

Hadoop入门教程：Java API实现，对Java程序员来讲，直接调用Hadoop的Java API来实现是最为方便的，要使用Java API至少需要实现三个重要组件：Map类、Reduce类、驱动Driver。下面将具体实现Java API的词频统计程序。(1)实现Map类：WordcountMapper.java，核心代码如下：import java.io.IOExcept

2016-07-25 09:11:32 824

转载 Map设计和Reduce设计

Hadoop认证课程：Map设计和Reduce设计，单词词频统计WordCount是Hadoop自带的一个简单的应用，它可以计算出指定文本集中每一个单词出现的次数。要利用MapReduce编程模型去实现一个词频统计的并行程序，对于开发者来讲需要做两件事：第一是如何将顺序执行的词频统计算法流程转化为MapReduce的处理模式，具体就是如何设计Map和Reduce的输入和输出的键值对，以及Map和R

2016-07-25 09:09:41 968

转载 Hadoop：启动与停止命令

Hadoop认证培训：启动与停止命令，在安装配置了Hadoop的伪分布式环境后就可以启动Hadoop了，首先需要格式化HDFS分布式文件系统，进入Hadoop的bin目录，操作命令如下：hadoop namenode -format正常格式化HDFS的显示截图，如图2-1所示。然后就可以启动Hadoop，进入Hadoop的bin目录，操作命令如下：

2016-07-25 09:08:33 83056

转载 hadoop怎么安装配置

Hadoop认证培训：hadoop怎么安装配置？上一节讲述了要安装Hadoop测试环境所必需的一些软件及基础环境配置，本节就开始安装并配置一个简单的Hadoop伪分布式环境。首先下载Hadoop的稳定版Hadoop-1.0.4.tar.gz，这里使用cnnic.cn镜像地址下载，使用以下命令进行操作：wget http:// mirrors.cnnic.cn/apache/Hado

2016-07-25 09:06:57 608

转载 Hadoop：基础环境配置

Hadoop认证培训：基础环境配置，在开始使用Hadoop之前还需要有一个Hadoop的基础测试环境，这里搭建一个简单的伪分布式模式来提供一个测试环境。关于生产环境下的Hadoop的安装、部署将在后续章节详细讲解。系统平台：Hadoop支持GUN/Linux系统，并推荐使用Linux作为开发测试和生产环境的平台，Win32仅支持开发测试环境，不推荐其作为生产环境系统，这里推荐直接使用GUN

2016-07-22 09:22:57 485

转载 MPI和MapReduce对比

Hadoop认证教程：MPI和MapReduce对比，在当前最流行的高性能并行体系结构中比较常用的并行编程环境分为两类：消息传递和共享存储。MPI是基于消息传递的经典代表，是消息传递并行程序设计的标准，用于构建高可靠的、可伸缩的、灵活的分布式应用程。消息传递并行处理开销比较大，适合于大粒度的进程级并行计算，相对其他并行编程环境，它具有很好的可移植性，几乎能被所有的并行环境支持;还具有很好的

2016-07-22 09:21:23 2456

转载 Hadoop：MapReduce模型

Hadoop认证培训：MapReduce模型，在并行计算领域最著名的就是MPI模型，MPI是一种消息传递编程模型，在大规模科学计算领域已经成功应用了数年，而MapReduce则是一种近几年出现的相对较新的并行编程技术，但是MapReduce计算模型也是建立在数学和计算机科学基础上的，实践已经证明这种并行编程模型具有简单、高效的特点，最为重要的两个概念就是Map和Reduce，最基本的处理思想就是“

2016-07-22 09:20:32 863

转载 Hadoop：HDFS数据存储与切分

Hadoop入门教程：HDFS数据存储与切分，在Hadoop中数据的存储是由HDFS负责的，HDFS是Hadoop分布式计算的存储基石，Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。那么HDFS相比于其他的文件系统有什么特征呢?简单总结有如下的基本特征：对于整个集群有单一的命名空间。数据一致性。适合一次写入多次读取的模型，客户端在文件没有被成功创建之前无法看到文

2016-07-22 09:19:24 9755

转载 hadoop大数据与hadoop云计算

Hadoop入门课程：hadoop大数据与hadoop云计算，Hadoop最擅长的事情就是可以高效地处理海量规模的数据，这样Hadoop就和大数据及云计算结下了不解之缘。本节将先介绍与大数据相关的内容，然后讲解Hadoop、大数据以及云计算之间的关系，使读者从大数据和云计算的角度来认识Hadoop。正是由于大数据对系统提出了很多极限的要求，不论是存储、传输还是计算，现有计算技术难以满足大数

2016-07-22 09:17:55 1194

转载 Hadoop：hadoop的起缘和发展史

Hadoop入门培训：hadoop的起缘和发展史1.1　缘于搜索的小象追本溯源，Hadoop起源于Nutch，因此学习Hadoop就有必要了解一下这种渊源及Hadoop的发展简史。1.1.1　Hadoop的身世首先我们介绍一下Nutch的发展情况，Nutch是一个以Lucene为基础实现的搜索引擎系统，Lucene为Nutch提供了文本检索和索引的API，Nutch

2016-07-21 09:23:29 1351

转载 Hadoop：MapReduce作业配置与提交

Hadoop高级课程：MapReduce作业配置与提交，在MapReduce中，每个作业由两部分组成：应用程序和作业配置。其中，作业配置内容包括环境配置和用户自定义配置两部分。环境配置由Hadoop自动添加，主要由mapred-default.xml和mapred-site.xml两个文件中的配置选项组合而成;用户自定义配置则由用户自己根据作业特点个性化定制而成，比如用户可设置作业名称，以及Map

2016-07-21 09:22:17 1052

转载 Hadoop：配置文件介绍

Hadoop高级课程：配置文件介绍，在Hadoop中，Common、HDFS和MapReduce各有对应的配置文件，用于保存对应模块中可配置的参数。这些配置文件均为XML格式且由两部分构成：系统默认配置文件和管理员自定义配置文件。其中，系统默认配置文件分别是core-default.xml、hdfs-default.xml和mapred-default.xml，它们包含了所有可配置属性的默认值。而

2016-07-21 09:21:02 1882

转载 Hadoop：MapReduce回调机制

Hadoop高级教程：MapReduce回调机制，回调机制是一种常见的设计模式。它将工作流内的某个功能按照约定的接口暴露给外部使用者，为外部使用者提供数据，或要求外部使用者提供数据。Hadoop MapReduce对外提供的5个组件(InputFormat、Mapper、Partitioner、Reducer和OutputFormat)实际上全部属于回调接口。当用户按照约定实现这几个接口后

2016-07-21 09:19:42 591

转载 Hadoop:MapReduce Reporter参数

Hadoop高级教程：MapReduce Reporter参数，Reporter是MapReduce提供给应用程序的工具。如图所示，应用程序可使用Reporter中的方法报告完成进度(progress)、设定状态消息(setStatus)以及更新计数器(incrCounter)。Reporter是一个基础参数。MapReduce对外提供的大部分组件，包括InputFor

2016-07-20 16:56:42 1206

转载 Hadoop：MapReduce序列化

hadoop高级教程：MapReduce序列化，序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。在Hadoop MapReduce中，序列化的主要作用有两个：永久存储和进程间通信。为了能够读取或者存储Java对象，MapReduce编程模型要求用户输入和输出数据中的key和value必须是可序列化的。在Hadoop M

2016-07-20 16:55:05 729

转载 Hadoop 新旧MapReduce API比较

hadoop高级教程：新旧MapReduce API比较，从0.20.0版本开始，Hadoop同时提供了新旧两套MapReduce API。新API在旧API基础上进行了封装，使得其在扩展性和易用性方面更好。新旧版MapReduce API的主要区别如下。(1)存放位置旧版API放在org.apache.hadoop.mapred包中，而新版API则放在org.apache.had

2016-07-20 16:54:09 536

转载 Hadoop:MapReduce编程接口体系结构

hadoop高级教程：MapReduce编程接口体系结构，MapReduce编程模型对外提供的编程接口体系结构如图3-1所示，整个编程模型位于应用程序层和MapReduce执行器之间，可以分为两层。第一层是最基本的Java API，主要有5个可编程组件，分别是InputFormat、Mapper、Partitioner、Reducer和OutputFormat。Hadoop自带了很多直接可用的In

2016-07-20 16:52:38 1893

转载 Hadoop：MapReduce架构设计

hadoop高级教程：MapReduce架构设计，和HDFS一样，MapReduce也是采用Master/Slave的架构，其架构图如下：它主要有以下4个部分组成：1)Client2)JobTrackerJobTracke负责资源监控和作业调度。JobTracker 监控所有TaskTracker 与job的健康状况，一旦发现失败，就将相应的任务

2016-07-20 09:18:59 477

转载 Hadoop：MapReduce作业的生命周期

hadoop高级教程：MapReduce作业的生命周期，本节主要讲解Hadoop MapReduce作业的生命周期，即作业从提交到运行结束经历的整个过程。本节只是概要性地介绍MapReduce作业的生命周期，可看作后续几章的内容导读。作业生命周期中具体各个阶段的深入剖析将在后续的章节中进行。来源：CUUG官网假设用户编写了一个MapReduce程序，并将其打包成xxx.jar文件，然后使用

2016-07-20 09:17:48 859

转载 Hadoop：HDFS架构

hadoop高级教程：HDFS架构，HDFS是一个具有高度容错性的分布式文件系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS的架构如图所示，总体上采用了master/slave架构，主要由以下几个组件组成：Client、NameNode、Secondary、NameNode和DataNode。下面分别对这几个组件进行介绍。

2016-07-20 09:16:45 449

转载 Hadoop YARN状态转换方式

hadoop入门教程：YARN状态转换方式，YARN状态机由一组状态组成，这些状态分为三类：初始状态、中间状态和最终状态。状态机从初始状态开始运行，经过一系列中间状态后，到达最终状态并退出。在一个状态机中，每个状态都可以接收一组特定事件，并根据具体的事件类型转换到另一个状态。当状态机转换到最终状态时，则退出。来源：CUUG官网在YARN中，每种状态转换由一个四元组表示，分别是转换前状态(p

2016-07-20 09:15:37 675

转载 Hadoop YARN事件库

hadoop入门教程：YARN事件库，YARN采用了基于事件驱动的并发模型，该模型能够大大增强并发性，从而提高系统整体性能。为了构建该模型，YARN将各种处理逻辑抽象成事件和对应事件调度器，并将每类事件的处理过程分割成多个步骤，用有限状态机表示。YARN中的事件处理模型可概括为图3-14所示。整个处理过程大致为：处理请求会作为事件进入系统，由中央异步调度器(Async-

2016-07-19 15:17:31 700

转载 Hadoop YARN RPC实现

hadoop培训教程：YARN RPC实现，当前存在非常多的开源RPC框架，比较有名的有Thrift、Protocol Buffers和Avro。同Hadoop RPC一样，它们均由两部分组成：对象序列化和远程过程调用(Protocol Buflers官方仅提供了序列化实现，未提供远程调用相关实现，但三方RPC库非常多)。相比于Hadoop RPC，它们有以下几个特点：跨语言特性。前面提到

2016-07-19 15:15:37 634

空空如也

空空如也