hadoop
文章平均质量分 85
Xlucas
做自己,做一个最普通的分享者
展开
-
YARN核心组件功能特性分析
YARN组件介绍说明原创 2022-07-15 08:55:09 · 815 阅读 · 0 评论 -
YARN的产生背景和架构剖析
YARN的产生背景和架构剖析原创 2022-07-06 08:53:17 · 278 阅读 · 0 评论 -
NodeManager专区-节点健康状况监测
节点健康监测是NodeManager自带的健康状况诊断机制,通过该机制,NodeManager可时刻掌握自己的健康状况,并及时汇报给ResourceManager。而ResourceManager则根据每个NodeManager的健康状况适当调整分配的任务数目。当NodeManager认为自己的健康状况“欠佳”时,可通知ResourceManager不再为之分配新任务,待健康状况好转时,再分配任务...原创 2020-03-31 23:15:36 · 903 阅读 · 0 评论 -
NodeManager专区-NodeManager的基本特性和概述
概述 NodeManager是运行在单个节点上的代理,它需要与应用程序的ApplicationMaster和集群的管理节点ResourceManager交互:从ApplicationMaster上接收有关的container的命令并执行;向ResourceMansger汇报各个container运行状态和节点健康状况,并领取有关containe...原创 2020-03-29 23:11:39 · 2486 阅读 · 0 评论 -
Hadoop任务操作命令
HADOOP 上经常会对一个application进行一系列操作:操作命令如下:yarn application -list 查看yarn上面所有的applicationyarn application -list -appStates RUNNING 查看 yarn上面真正running的applicationyarn application -list -appTypes ...原创 2019-10-14 08:13:31 · 1031 阅读 · 0 评论 -
Hadoop3.0安装以及新特性介绍
Apache Hadoop 3.0.0在前一个主要发行版本(hadoop-2.x)中包含了许多重要的增强功能 环境安装: 192.168.18.160 CDH1 192.168.18.161 CDH2 192.168.18.162 CDH3 192.168.18.163 CDH41,java8是必须 所有hadoop 的jar都是利用java8的运行时版本进行编译的。依然在使用java7原创 2017-12-26 23:56:02 · 10434 阅读 · 3 评论 -
Hadoop错误日志
今天运行mapreduce的时候报下面的错误2017-06-15T19:01:01,766 INFO [task-runner-0-priority-0] org.apache.hadoop.mapreduce.Job - Task Id : attempt_1497518752686_0003_r_000001_1, Status : FAILEDContainer [pid=6030,cont原创 2017-06-19 20:52:59 · 1478 阅读 · 0 评论 -
HADOOP1.X中HDFS工作原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点:保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。运行在廉价的机器上。(商用机)适合大数据的处理。多大?多小?HDFS默认会将文件分割成b转载 2017-06-08 01:05:42 · 422 阅读 · 0 评论 -
HDFS 原理、架构与特性
核心 1:hadoop1.X的HDFS架构 2:HDFS文件读取的解析 3:HDFS文件写入的解析 4:副本机制 5:HDFS 文件删除恢复机制 6:HDFS缺点 1:hadoop1.X的HDFS架构 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 N原创 2017-06-08 01:00:18 · 1099 阅读 · 0 评论 -
hadoop2.3异常问题
为了验证druid的在hadoop上的overlord,决定安装hadoop2.3的版本, 在安装hadoop2.3的过程中发现一些环境问题,在运行hadoop自身带的例子就遇到了如下的错误。从错误信息来看 这个就是没有配置classpath,本想直接在yarn-site.xml里面配置yarn.application.classpath配置jar包的路径,<name>yarn.applicat原创 2017-05-25 18:55:59 · 1523 阅读 · 1 评论 -
YARN基本框架和工作流程
问题 1、YARN的基本组成架构 2、YARN的通信协议 3、YARN工作流程YARN是Hadoop2.0中资源管理系统,它的基本设计思想是将MRV1中的jobtracker拆分成了两个独立的服务:一个全局的资源管理器resourceManager和每个应用程序特有的ApplicationMaster,其中resourceManager负责整个系统的资源管理和分配,而ApplicationMa原创 2016-12-26 23:33:05 · 6088 阅读 · 0 评论 -
kerberos认证原理
前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去。后来想想原因有以下两点:对于一个没有完全不了解Kerberos的人来说,Kerberos的整个Authentication过程确实不好理解——一会儿以这个Key进行加密、一会儿又要以另一个Key进行加密,确实很容易把人给弄晕;另一方面是我讲解方式有问题,转载 2018-01-13 23:58:43 · 351 阅读 · 0 评论 -
Hadoop2.7.3源码编译
环境: CentOS release 6.5 jdk1.8 maven3.5.0 Hadoop2.7.3 protocbuf 2.5.0 这里选择的Linux环境下面编译,因为这个Windows下面出现了很多问题1、环境安装 这里 jdk maven 这些的安装 不在做介绍了,这里重点介绍一下protocbuf的安装安装依赖库(重要), 这个必须安装,不同操作系统安装不一样,如果不安原创 2018-01-18 08:16:17 · 677 阅读 · 0 评论 -
Hadoop2容错机制
在Hadoop1中HDFS和MapReduce均采用了master/slave结构,这种结构虽然具有设计非常简单的优点,但是同时存在master单点故障的问题,所有长时间Hadoop处于仅用于离线存储和计算。Hadoop2中HDFS同样面临着单点故障问题,但由于每个MapReduce作业拥有自己的作业管...原创 2018-02-09 00:15:47 · 1035 阅读 · 0 评论 -
Hadoop2.7.5HA的安装和测试
这篇文章我们只介绍Hadoop HA的安装和配置,不会深入讲解HA的原理。 1、集群的规划 主机名 IP 安装的软件 运行的进程cdh1 192.168.18.160 jdk、hadoop NameNode DFSZKFailoverController(zkfc)、ResourceManagercd原创 2018-02-04 23:30:53 · 1136 阅读 · 0 评论 -
YARN HA实现和原理
YARN将共享存储系统抽象成RMStateStore,以保存恢复ResouceManager所必须的信息,包括: Application状态信息ApplicationState。内部包含应用程序提交描述信息context、提交时间submitTime、拥...原创 2018-02-12 22:59:17 · 3233 阅读 · 0 评论 -
YARN HA实现和原理
YARN将共享存储系统抽象成RMStateStore,以保存恢复ResouceManager所必须的信息,包括: Application状态信息ApplicationState。内部包含应用程序提交描述信息context、提交时间submitTime、拥...原创 2018-02-12 22:59:21 · 701 阅读 · 0 评论 -
Hadoop运行过程中错误解决
错误信息:Container [pid=64555,containerID=container_1563447435119_3196879_01_000107] is running beyond physical memory limits. Current usage: 3.4 GB of 3 GB physical memory used; 5.2 GB of 12.6 GB virtual...原创 2019-10-08 08:15:50 · 580 阅读 · 0 评论 -
NameNode和DataNode之间的交互
简介HDFS的设计核心是提高处理数据的吞吐量而不是低延迟,因此更适合数据的批处理,而非交互式处理,HDFS弱化了一些POSIX语义以获求吞吐量提升。HDFS对存储在其上的数据使用了一次写入多次读取的文件控制模型,一旦一个文件被写入并且存储到HDFS系统上,只可以追加写入该文件而不能修改,从而达到提高吞吐量的目标NameNode可以执行以下HDFS功能1、执行所有的HDFS操作,如打开/关闭文...原创 2019-10-09 08:28:38 · 3094 阅读 · 0 评论 -
YARN设计理念与基本架构
问题 1、MRV1设计存在的问题 2、MRV2中YARN带来的好处 3、YARN基本设计思想1、MRV1设计存在的问题 由于MRV1在扩展性、可靠性、资源利用率和多框架等方面存在明显不足,于是诞生了下一代MapReduce计算框架MRV2先简单了解MRV1的一些局限性,这可概括为一下几个方面扩展性差:在MRV1中,jobtracker同时兼备了资源管理和作业控制两个功能,这成为系统原创 2016-12-22 23:36:05 · 1372 阅读 · 0 评论 -
Zookeeper的功能以及工作原理
问题导读:1.ZooKeeper是什么? 2.ZooKeeper提供了什么? 3.Zookeeper做了什么?1.ZooKeeper是什么? ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户2转载 2016-11-23 08:15:01 · 894 阅读 · 0 评论 -
Zookeeper之ACL控制
Access Control在分布式系统中重要性是毋庸置疑的,今天这篇文章来介绍一下Zookeeper中的Access Control(ACL)。1. 概述 传统的文件系统中,ACL分为两个维度,一个是属组,一个是权限,子目录/文件默认继承父目录的ACL。而在Zookeeper中,node的ACL是没有继承关系的,是独立控制的。Zookeeper的ACL,可以从三个维度来理解:一是scheme;原创 2016-11-22 15:51:27 · 879 阅读 · 0 评论 -
Jobtracker向Tasktracker下发命令
在Jobtracker更新状态以后,Jobtracker要为Tasktracker构造一个HeartbeatResponse对象作为心跳应答,该对象主要有2个部分内容:下达给Tasktracker的命令和下次心跳的时间**下达命令**Jobtracker将下达给Tasktracker的命令封装成TasktrackerAction类,主要包括了ReinitTrackerAction(重新初始化)、L原创 2016-09-26 23:23:47 · 1006 阅读 · 0 评论 -
Mapreduce中context的作用
在我们写mapreduce的程序时候总会有这么一段代码,这个代码就是map方法的实现,里面有一个参数 context对象,但是这个context对象究竟是干什么的呢? public void map(Object key, Text value, Context context ) throws IOException, InterruptedExceptio原创 2016-08-14 23:47:43 · 10068 阅读 · 0 评论 -
从源码阶段InputFormat设计
InputFormat主要用于描述输入数据的格式,它提供了2个功能1、 数据切分:按照某个策略将输入数据切分成若干个split,以便确定map task个数以及对应的split2、 为Mapper提供输入数据:给定某个split,能将其解析成一个个key/value对在新版的API的InputFormat解析在新版的API中InputFormat是一个抽象类,它包含了2个方法 List getSpl原创 2016-09-04 11:18:34 · 637 阅读 · 0 评论 -
Hadoop2.x从源码讲解作业配置
Job在新API的作业配置 Job 类继承了JobContextImpl 类实现了接口JobContext接口 Job提供了写setter方法,例如 setNumReduceTasks 设置reduce数量 setMapperClass 设置运行Mapper的类等等。用来这只任务在运行过程中的一些属性值,这个方法其实实现都是用conf调用setter来实现的, 而JobCon原创 2016-09-03 21:22:30 · 719 阅读 · 0 评论 -
从源码解读context对象的作用
在我们写mapreduce的程序时候总会有这么一段代码,这个代码就是map方法的实现,里面有一个参数 context对象,但是这个context对象究竟是干什么的呢? public void map(Object key, Text value, Context context ) throws IOException, InterruptedExceptio原创 2016-09-03 12:11:52 · 746 阅读 · 0 评论 -
sqoop的安装和原理
Sqoop 是一款数据迁移的工具,可以从 mysql等数据库迁移到 hdfs 里面 ,依赖 yarn 和 hdfs,如果服务器上面有$HADOOP_HOME这个变量,sqoop会自动去读取这个值来寻找yarn和namenode,安装在一台节点机上面就可以了安装 tar -xvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz -C /home/hadoop/原创 2016-09-03 10:55:46 · 552 阅读 · 0 评论 -
Hadoop之Jobtracker启动过程
1、Jobtracker启动过程 Jobtracker是一个后台进程,它包含了一个main函数。我们可以从main函数入手,逐步分析Jobtracker启动过程。在main函数中有2行比较重要的代码分别是: JobTracker tracker = startTracker(new JobConf());//创建一个JobTracker的对象 tracker.offerServ原创 2016-09-11 00:53:40 · 3024 阅读 · 0 评论 -
Hadoop作业初始化过程
调度器调用JobTracker.initJob();函数对新作业进行初始化,作业初始化的主要工作是构造Map Task和Reduce Task并对它们进行初始化。hadoop将每一个作业分解成4种类型的任务,分别是Setup Task、Map Task、Reduce Task和Cleanup Task .它们的运行时信息由TaskInprogress类维护。因此,创建这些任务实际上是创建TaskIn原创 2016-09-11 00:30:27 · 1201 阅读 · 0 评论 -
Hadoop1中Reduce task内部实现原理
与map task 一样,reduce task也分为4种,即job-setup task、job-cleanup task、task-cleanup task和reduce task。本文中重点介绍reduce task。reduce task要从各个map task上读取一片数据,经排序后,以组为单位交给用户编写的reduce( )函数处理,并将结果写到HDFS上reduce task整体流程原创 2016-10-25 00:49:08 · 903 阅读 · 0 评论 -
Hadoop1中Task运行过程
当我们编写一个Mapreduce的作业时候,只需要实现map()和reduce()两个函数就可以。其中map阶段大概可以划分 read 、map、collect、spill和combine五个阶段 。reduce阶段可以划分shuffle、merge、sort、reduce和write五个阶段。 一个应用程序被划分成map和reduce两个计算阶段,它们分别有一个或者多个map task或者re原创 2016-09-29 00:32:38 · 2588 阅读 · 1 评论 -
TaskTracker行为分析
tasktracker的行为分析,启动新任务、提交任务、杀死任务、杀死作业、重启初始化原创 2016-09-30 23:47:28 · 2439 阅读 · 0 评论 -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
数据模型 Zookeeper 会维护一个具有层次关系的数据结构,它非常类似于一个标准的文件系统,如图 1 所示: Zookeeper 这种数据结构有如下这些特点: 每个子目录项如 NameService 都被称作为 znode,这个 znode 是被它所在的路径唯一标识,如 Server1 这个 znode 的标识为 /NameService/Server1 znode 可以有子节点目录转载 2016-11-22 00:11:31 · 444 阅读 · 0 评论 -
ZooKeeper分步式集群安装及java编程命令操作
目录 zookeeper介绍 zookeeper单节点安装 zookeeper分布式集群安装 zookeeper命令行操作 Java编程现实命令行操作zookeeper介绍zookeeper是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。zookeeper本身可以以Stan原创 2016-11-21 20:49:58 · 1791 阅读 · 0 评论 -
基于Zookeeper的分步式队列系统集成案例
前言软件系统集成一直是工业界的一个难题,像10年以上的遗留系统集成,公司收购后的多系统集成,全球性的分步式系统集成等。虽然基于SOA的软件架构,从理论上都可以解决这些集成的问题,但是具体实施过程,有些集成项目过于复杂而失败。随着技术的创新和发展,对于分步式集群应用的集成,有了更好的开源软件的支持,像zookeeper就是一个不错的分步式协作软件平台。本文将通过一个案例介绍Zookeeper的强大。目转载 2016-11-29 08:50:20 · 801 阅读 · 0 评论 -
Map task 内部实现原理和运行机制
hadoop1.x中,map task分为4种,分别是 job-setup task、job-cleanup task、task-cleanup task和map task。其中,job-setup task 和job-cleanup task分别是作业运行时启动的第一个任务和最后一个任务,主要工作分别是进行一些作业初始化和收尾工作,比如创建和删除作业临时输出目录;而task-cleanup ta原创 2016-10-17 00:32:17 · 3659 阅读 · 1 评论 -
Job和Task运行时的信息维护
Jobtracker最重要的功能之一是状态监控,包括tasktracker、job、task等运行时状态的监控,Tasktracker监控比较简单,只要记录其最近心跳汇报时间和健康状态就可以了,1、作业描述模型 Jobtracker在其内部以“三层多叉树”的方式描述和跟踪每个作业的运行状态。Jobtracker为每个作业创建一个JobInProgress对象以跟踪和监控其运行状态原创 2016-10-01 00:01:12 · 1861 阅读 · 0 评论 -
Hadoop心跳机制
心跳是Jobtracker和Tasktracker的桥梁,它实际上是一个RPC函数,Tasktracker周期性的调用该函数汇报节点和任务状态信息,从而形成心跳。在hadoop中,心跳主要有三个作用: 1、判断Tasktracker是否活着 2、及时让Jobtracker获取各个节点上的资源使用情况和任务运行状态 3、为Tasktracker分配任务 注意:Jobtracker与Tasktr原创 2016-09-26 23:17:45 · 4067 阅读 · 0 评论 -
hadoop1.X作业提交过程详细讲解
**Jobclient 准备运行环境 Jobtracker 接收作业 Taskscheduler 初始化作业**作业提交: 总体来言,作业提交还是比较简单的,主要涉及创建目录、上传文件等操作;一旦用户提交了作业以后,Jobtracker端便会对作业进行初始化,初始化的作业主要是根据输入数据量和作业的配置参数将作业分解成若干个map task 和reduce task整个过程: 用户使用had原创 2016-09-08 23:34:11 · 991 阅读 · 0 评论