hadoop
Fenggms
好好学习,天天向上。
展开
-
CDH版本Hadoop集群环境搭建详解
Hadoop简介1、hadoop简介以及发展历史2、hadoop的历史版本介绍3、hadoop三大公司发型版本介绍4、hadoop的架构模型第一种:NameNode与ResourceManager单节点架构模型第二种:NameNode单节点与ResourceManager高可用架构模型第三种:NameNode高可用与ResourceManager单节点架构模型第四种:NameNode与Resour...原创 2018-09-19 00:46:54 · 4534 阅读 · 0 评论 -
Hadoop HA——Hadoop High Availability
HA概述HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。...原创 2018-10-05 22:33:22 · 879 阅读 · 0 评论 -
zookeeper(01)——zookeeper概述
Zookeeper是什么?Zookeeper 由 Apache Hadoop 的 Zookeeper 子项目发展而来,Google Chubby的一个开源实现。它是一个分布式应用程序协调服务,提供的功能包括:配置管理,名字服务,提供分布式同步、队列管理、集群管理等。从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些...原创 2018-10-06 21:31:29 · 239 阅读 · 0 评论 -
zookeeper(02)——zookeeper选举机制
zookeeper角色Leader:Zookeeper 集群工作的核心。事务请求(写操作) 的唯一调度和处理者,保证集群事务处理的顺序性;集群内部各个服务器的调度者。对于 create, setData, delete 等有写操作的请求,需要统一转发给leader 处理, leader 需要决定编号、执行操作,这个过程称为一个事务。Follower:处理客户端非事务(读操作) 请求,转...原创 2018-10-06 22:54:18 · 1284 阅读 · 1 评论 -
zookeeper(03)——zookeeper的shell操作
客户端连接运行 zkCli.sh –server ip 进入命令行工具。输入 help,输出 zk shell 提示:shell操作创建节点create [-s] [-e] path data acl其中,-s 或-e 分别指定节点特性,顺序或临时节点,若不指定,则表示持久节点;acl 用来进行权限控制。下图分别是创建永久节点和创建顺序节点:读取节点与读取相关的命令有 ls...原创 2018-10-06 22:59:09 · 560 阅读 · 0 评论 -
zookeeper(04)——zookeeper的数据模型
数据模型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构,ZooKeeper 树中的每个节点被称为Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。但也有不同之处:Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、 时间戳等数据结构,又像目录一样可以作为路径标识的一...原创 2018-10-06 23:03:00 · 263 阅读 · 0 评论 -
zookeeper(05)——zookeeper的watch机制
zookeeper的watch机制ZooKeeper 提供了分布式数据发布/订阅功能,一个典型的发布/订阅模型系统定义了一种一对多的订阅关系,能让多个订阅者同时监听某一个主题对象,当这个主题对象自身状态变化时,会通知所有订阅者,使他们能够做出相应的处理。ZooKeeper 中,引入了 Watcher 机制来实现这种分布式的通知功能 。ZooKeeper 允许客户端向服务端注册一个 Watche...原创 2018-10-06 23:06:45 · 469 阅读 · 0 评论 -
zookeeper(06)——zookeeper的javaAPI
Zookeeper 是在 Java 中客户端主类,负责建立与 zookeeper 集群的会话,并提供方法进行操作。org.apache.zookeeper.WatcherWatcher 接口表示一个标准的事件处理器,其定义了事件通知相关的逻辑,包含 KeeperState 和 EventType 两个枚举类,分别代表了通知状态和事件类型,同时定义了事件的回调方法:process(WatchedE...原创 2018-10-06 23:11:39 · 182 阅读 · 0 评论 -
Hadoop yarn资源调度——主要组件及介绍
yarn主要组件及介绍yarn的概述:yarn的主要组件各个组件介绍ResourceManager:NodeManager:ApplicationMaster:Container:yarn当中各个主要组件的作用resourceManager主要作用:NodeManager主要作用:ApplicationMaster主要作用:Container主要作用:yarn的官网文档yarn监控界面yarn的...原创 2018-09-29 21:00:11 · 2895 阅读 · 0 评论 -
Hadoop yarn资源调度——YARN的架构及工作流程
yarn 的架构图YARN总体架构上是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManag...原创 2018-09-29 21:33:14 · 812 阅读 · 0 评论 -
java执行shell命令
可以使用java代码通过远程连接去linux服务器上面执行一些shell命令,包括一些集群的状态管理,执行任务,集群的可视化界面操作等等。google公司给提出了对应的解决方案,开源出来了一个jar包叫做sshxcute,通过这个jar包我们可以通过java代码,非常便捷的操作我们的linux服务器了项目地址如下:https://code.google.com/archive/p/sshxc...原创 2018-10-04 22:47:50 · 958 阅读 · 0 评论 -
MapReduce shuffle过程及压缩机制
MapReduce shuffle过程shuffle过程shuffle阶段数据的压缩机制hadoop当中支持的压缩算法如何开启我们的压缩:方式一:在代码中进行设置压缩snappy压缩这里我们通过修改代码的方式来实现数据的压缩重新打包测试mr程序shuffle过程map阶段处理的数据如何传递给reduce阶段,是MapReduce框架中最关键的一个流程,这个流程就叫shuffle。shuffl...原创 2018-09-20 18:02:01 · 1090 阅读 · 0 评论 -
MapTask和ReduceTask运行机制以及Map任务的并行度
MapTask和ReduceTask运行机制以及Map任务的并行度1、MapTask运行机制详解以及Map任务的并行度详细步骤:mapTask的一些基础设置配置(mapred-site.xml当中社会):2、ReduceTask 工作机制以及reduceTask的并行度详细步骤:1、MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如下图所示。简单概述:inputFil...原创 2018-09-20 16:45:26 · 2502 阅读 · 0 评论 -
hadoop简介
hadoop的介绍以及发展历史Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。-分布式文件系统(GFS),可用于处理海量网页的存储-分布式计算框架MAPREDUCE...原创 2018-09-19 17:31:09 · 594 阅读 · 0 评论 -
HDFS特性及简单命令行使用
HDFS介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。HDFS的特性是一个文件...原创 2018-09-19 20:09:52 · 264 阅读 · 0 评论 -
HDFS架构
HDFS的架构图之基础架构HDFS是使用Java语言构建的; 任何支持Java的机器都可以运行NameNode或DataNode软件。使用高度可移植的Java语言意味着可以在各种计算机上部署HDFS。集群中存在单个NameNode,极大地简化了系统的体系结构。NameNode是所有HDFS元数据的仲裁者和存储库。系统设计使用户数据永远不会流经NameNode。1、 NameNode是一个...原创 2018-09-19 21:12:17 · 348 阅读 · 0 评论 -
HDFS的元数据信息FSimage以及edits和secondaryNN的作用
1、 FSImage与edits详解当架构如下图所示时:namenode就一个的时候,所有的元数据信息都保存在了FsImage与Eidts文件当中,这两个文件就记录了所有的数据的元数据信息,元数据信息的保存目录配置在了hdfs-site.xml当中<property> <name>dfs.namenode.name.dir</n...原创 2018-09-19 21:58:35 · 1270 阅读 · 0 评论 -
HDFS的文件写入和读取过程
1、HDFS的文件写入过程详细步骤解析:1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C;...原创 2018-09-19 22:07:59 · 2639 阅读 · 0 评论 -
HDFS的Java API操作-使用FileSystem方式访问数据
HDFS的Java API操作-使用FileSystem方式访问数据1、创建maven工程,并导入jar包2、使用url的方式访问数据(使用较少)3、使用FileSystem方式访问数据4、获取FileSystem的几种方式第一种获取FileSystem的方式:FileSystem.get(new URI("URI地址"))第二种获取FileSystem的方式:configuration.set(...原创 2018-09-20 11:52:50 · 7150 阅读 · 1 评论 -
分布式计算框架MapReduce入门——理解MapReduce思想
MapReduce1、理解MapReduce思想2、MapReduce设计构思如何对付大数据处理构建抽象模型:Map和Reduce统一构架,隐藏系统层细节3、MapReduce框架结构1、理解MapReduce思想MapReduce的思想核心是**“分而治之”**,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进...原创 2018-09-20 15:03:15 · 1510 阅读 · 0 评论 -
MapReduce编程规范及示例编写
MapReduce编程规范及示例编写编程规范Map阶段2个步骤shuffle阶段4个步骤reduce阶段2个步骤WordCount示例编写定义一个mapper类定义一个reducer类MapReduce程序运行模式本地运行模式集群运行模式编程规范MapReduce的开发一共有八个步骤。其中,map阶段分为2个步骤,shuffle阶段4个步骤,reduce阶段分为2个步骤。Map阶段2个...原创 2018-09-20 15:30:45 · 1414 阅读 · 0 评论 -
MapReduce的shuffle阶段案例
MapReduce的shuffle阶段案例1、MapReduce的分区与reduceTask的数量2、MapReduce排序以及序列化3、MapReduce的combiner1、MapReduce的分区与reduceTask的数量在MapReduce中,通过我们指定分区,会将同一个分区的数据发送到同一个reduce当中进行处理。例如我们为了数据的统计,我们可以把一批类似的数据发送到同一个re...原创 2018-09-20 16:27:10 · 287 阅读 · 0 评论 -
Hadoop yarn资源调度——YARN中的调度
现实中,由于资源是有限的,在一个繁忙的集群中,YARN应用发出的资源请求无法立刻满足,实际上一个应用经常需要等待才能得到所需的资源。YARN调度器的工作就是根据既定策略,为应用分配资源。调度通常是一个难题,并且没有一个所谓最好的策略。于是YARN提供了多种调度器和可配置策略供我们选择使用。调度选项YARN中,提供了三种调度器供我们选择。FIFO Scheduler (队列调度器)队列调...原创 2018-09-29 22:11:24 · 765 阅读 · 1 评论