hadoop(HDFS、YARN、MAPREDUCE)
文章平均质量分 83
hadoop(HDFS、YARN、MAPREDUCE)
涂作权的博客
To do what I want to do!
展开
-
JournalNode的作用
NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了。上面在Active N转载 2021-05-29 20:15:54 · 2069 阅读 · 0 评论 -
Hadoop - YARN NodeManager 剖析、NodeManger内部架构、分布式缓存、目录结构、状态机管理、Container 生命周期剖、资源隔离
一 概述NodeManager是运行在单个节点上的代理 ,它管理Hadoop集群中单个计算节点,功能包括与ResourceManager保持通信,管理Container的生命周期、监控每个Container的资源使用(内存、CPU等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务等。NodeManager是YARN中单个节点的代理, 它需要与应用程序的ApplicationMaster和集群管理者ResourceManager交互;它从ApplicationMaster上接收有关Conta转载 2021-05-14 00:33:39 · 1252 阅读 · 0 评论 -
JournalNode的作用
JournalNode的作用NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步转载 2021-05-14 00:07:55 · 756 阅读 · 1 评论 -
DataNode启动后自动停止的问题( Incompatible clusterIDs in /xxx/xxx;namenode clusterID = xxxx;datanode clusterI)
25.25.37DataNode启动后自动停止的问题 java.io.IOException: Incompatible clusterIDs in /home/lxh/hadoop/hdfs/data: namenode clusterID = CID-a3938a0b-57b5-458d-841c-d096e2b7a71c; datanode clusterID = CID-200e6206-98b5-44b2-9e48-262871825.25.37.1概述解决hadoop启动hdfs时,data转载 2021-04-25 17:37:36 · 509 阅读 · 0 评论 -
yarn timeline1,timeline2官网解释
文章地址:https://hadoop.apache.org/docs/r3.2.0/hadoop-yarn/hadoop-yarn-site/TimelineServer.html#Timeline_Server_REST_API_v1https://hadoop.apache.org/docs/r3.2.0/hadoop-yarn/hadoop-yarn-site/TimelineServiceV2.html#Timeline_Service_v.2_REST_API转载 2020-12-30 16:26:48 · 586 阅读 · 0 评论 -
Ambari2.7.4+HDP3.1.4.0中配置fair-scheduler
1.21将Yarn的调度策略修改成Fair Scheduler的A:找到YARN列表,然后找到yarn.resourcemanager.scheduler.class,然后将它的值进行修改,即:<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.原创 2020-10-29 14:16:57 · 1826 阅读 · 0 评论 -
Linux配置ntp时间服务器(全)
时间服务器作用:大数据产生与处理系统是各种计算设备集群的,计算设备将统一、同步的标准时间用于记录各种事件发生时序,如E-MAIL信息、文件创建和访问时间、数据库处理时间等。大数据系统内不同计算设备之间控制、计算、处理、应用等数据或操作都具有时序性,若计算机时间不同步,这些应用或操作或将无法正常进行。大数据系统是对时间敏感的计算处理系统,时间同步是大数据能够得到正确处理的基础保障,是大数据得以发挥作用的技术支撑。大数据时代,整个处理计算系统内的大数据通信都是通过网络进行。时间同步也是如此,利用大数据转载 2020-10-02 11:35:39 · 2843 阅读 · 0 评论 -
手工计算YARN和MapReduce、tez内存配置设置
1.1.HDP YARN MapReduce参数调优建议转自:https://blog.csdn.net/mnasd/article/details/812029081.1.1.RM的内存资源配置,配置的是资源调度相关RM1:yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存(默认是1G)RM2:yarn.scheduler.maximum-allocation-mb 分配给AM单个容器可申请的最大内存(默认是yarn.nodemanager原创 2020-10-02 01:47:52 · 1216 阅读 · 0 评论 -
HDFS权限设置 \ HDFS涉及ACLs的命令
本文主要参考:https://www.cnblogs.com/royfans/p/7326859.htmlhttps://www.cppentry.com/bencandy.php?fid=115&id=206011HDFS权限设置1.hdfs权限检查启用,需要在hdfs-site.xml中做如下配置:<property> <name>dfs.permissions.enabled</name> <value>true<转载 2020-06-04 15:50:21 · 2570 阅读 · 0 评论 -
通过yarn上的applicationId杀死hadoop中的任务,或通过hadoop job命令停止任务、yarn container 的日志路径
示例:$ yarn application -kill application_Idhadoop命令行 与job相关的:命令行工具 •1.查看 Job 信息:hadoop job -list2.杀掉 Job:hadoop job –kill job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir4.作业的更多细节:hado...原创 2019-11-26 18:39:37 · 2684 阅读 · 0 评论 -
Hadoop动态扩容,增加节点
转载:https://www.cnblogs.com/mengzj233/p/9759457.html基础准备在基础准备部分,主要是设置hadoop运行的系统环境修改系统hostname(通过hostname和/etc/sysconfig/network进行修改)修改hosts文件,将集群所有节点hosts配置进去(集群所有节点保持hosts文件统一)设置NameNode(两台HA均需...转载 2019-11-21 13:51:19 · 1291 阅读 · 0 评论 -
HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo
26 集群使用初步26.1 HDFS使用1、查看集群状态命令: hdfs dfsadmin –report 可以看出,集群共有3个datanode可用也可打开web控制台查看HDFS集群信息,在浏览器打开http://hadoop:50070/ 2、上传文件到HDFS查看HDFS中的目录信息命令:hadoop fs –ls /原创 2017-05-29 15:54:40 · 7698 阅读 · 0 评论 -
MapReduce 计数器简介(转载自:http://www.tuicool.com/articles/qqyIBr)
1、计数器 简介在许多情况下,一个用户需要了解待分析的数据,尽管这并非所要执行的分析任务 的核心内容。以统计数据集中无效记录数目的任务为例,如果发现无效记录的比例 相当高,那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在 缺陷,还是数据集质量确实很低,包含大量无效记录?如果确定是数据集的质量问 题,则可能需要扩大数据集的规模,以增大有效记录的比例,从而进行有意义的 分析。 计数器是转载 2017-06-04 15:47:07 · 1587 阅读 · 0 评论 -
Hadoop的HA机制
Hadoop的HA机制前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA (2)HDFS的HA机制详解通过双namenode消除单点故障双namenode原创 2017-06-08 19:06:09 · 635 阅读 · 0 评论 -
Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误
25. 集群搭建25.1 HADOOP集群搭建25.1.1集群简介HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起HDFS集群:负责海量数据的存储,集群中的角色主要有NameNode / DataNodeYARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager25.1.2服务器准备本案原创 2017-05-29 02:11:29 · 6093 阅读 · 0 评论 -
hdfs haadmin使用,DataNode动态上下线,NameNode状态切换管理,数据块的balance,HA下hdfs-api变化(来自学习资料)
1.2.4集群运维测试HA集群中两个namenode状态的管理命令 [root@mini2 hadoop-2.6.4]# bin/hdfs haadmin Usage: DFSHAAdmin [-ns ] [-transitionToActive [--forceactive]] [-transitionToStandby ] [-failover [-原创 2017-06-10 19:13:48 · 2938 阅读 · 0 评论 -
hadoop-HA集群搭建,启动DataNode,检测启动状态,执行HDFS命令,启动YARN,HDFS权限配置,C++客户端编程,常见错误
本篇博文为整理网络上Hadoop-HA搭建后出来的博客,参考网址为:http://blog.chinaunix.net/uid-196700-id-5751309.html3.部署3.1.机器列表共5台机器(zookeeper部署在这5台机器上),部署如下表所示: NameNode JournalNode DataNode...原创 2017-06-10 13:49:08 · 9531 阅读 · 0 评论 -
配置开发者本地hadoop-3.0.0环境
1 配置开发者本地hadoop环境参考网址:https://blog.csdn.net/songhaifengshuaige/article/details/795753081.1.下载hadoop3.0.0并配置环境变量1.2.集成支持windows下运行的hadoop的bin关于winutils:除了Hadoop安装包和JDK外,还要下载的一个第三方工具是名为winut...原创 2018-04-15 22:14:40 · 3122 阅读 · 0 评论 -
Hadoop性能调优、YARN的内存和CPU配置
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程拷贝数据量,最终表现为M...转载 2018-06-12 21:01:54 · 17826 阅读 · 2 评论 -
Error: recoverUnfinalizedSegments failed for required journal
转自:https://blog.csdn.net/dudefu011/article/details/78463207#一、问题描述HA按照规划配置好,启动后,NameNode不能正常启动。刚启动的时候 jps 看到了NameNode,但是隔了一两分钟,再看NameNode就不见了。但是测试之后,发现下面2种情况:1)先启动JournalNode,再启动Hdfs,NameNode可以启动并...转载 2019-04-28 19:18:22 · 4023 阅读 · 1 评论 -
Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量,jar文件等
一个典型的实现Tool的程序:/**MyApp 需要从命令行读取参数,用户输入命令如,$bin/hadoop jar MyApp.jar -archives test.tgz arg1 arg2-archives 为hadoop通用参数,arg1 ,arg2为job的参数*/一个典型的实现Tool的程序:/**MyApp 需要从命令行读取参数,用户输入命令如,$bin/hadoop jar My转载 2017-06-04 02:26:43 · 2487 阅读 · 0 评论 -
MapReduce将小文件合并成大文件,并设置每个切片的大小的案例
测试代码:package cn.toto.bigdata.combinefile;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import原创 2017-06-04 01:42:42 · 7817 阅读 · 1 评论 -
通过MapReduce统计每个单子在每个文件中出现的次数(FileSplit的使用),单词作为key,所在文本和次数作为value进行统计
代码如下:package cn.toto.bigdata.mr.index;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.原创 2017-06-03 16:33:32 · 4935 阅读 · 0 评论 -
HDFS的API调用,创建Maven工程,创建一个非Maven工程,HDFS客户端操作数据代码示例,文件方式操作和流式操作
1. HDFS的java操作hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件1.1 搭建开发环境 1.1.1创建Maven工程快速创建一个Maven工程和目录结构的方式是执行下面的命令: mvn archetype:generate -Dgrou原创 2017-05-30 16:56:13 · 1952 阅读 · 1 评论 -
HDFS命令行客户端使用,命令行客户端支持的命令参数,常用命令参数介绍
3.HDFS的shell(命令行客户端)操作3.1 HDFS命令行客户端使用HDFS提供shell命令行客户端,使用方法如下: [toto@hadoop hadoop-2.8.0]$ hdfs dfs -ls / (推荐使用这种方式,hdfs现在这种是最新的一种方式) Found 4 items drwxr-xr-x - toto supergroup 0 2原创 2017-05-30 01:36:40 · 1829 阅读 · 0 评论 -
Linux下快速搭建ntp时间同步服务器(转载:http://www.linuxidc.com/Linux/2014-07/104371.htm)
背景:服务器多了,时间是否一致以及是否准备就显得格外重要,虽然这个问题总是被忽略,但是统一时间是很有必要的,因为时间问题导致服务出现问题也是司空见惯,本文简单介绍Linux下ntp的快速搭建和使用。CentOS NTP服务器安装与配置 http://www.linuxidc.com/Linux/2014-01/95258.htmLinux实战部署系列之NTP服务器 http://www.linux转载 2017-05-29 22:47:31 · 1582 阅读 · 0 评论 -
datenode节点超时时间设置,Hadoop启动不正常,HDFS冗余数据块的自动删除,NameNode安全模式问题,ntp时间服务同步,机架感知配置
1.Hadoop datanode节点超时时间设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为: timeout = 2 * heartbeat.recheck原创 2017-05-29 22:43:49 · 3577 阅读 · 0 评论 -
本地编译Hadoop2.8.0源码总结和问题解决(转自:http://blog.csdn.net/young_kim1/article/details/50324345)
先吐槽一下,本人编译了3天,本来想放弃了,在晚上的时候尝试了最后一次,没想到终于成功了,这里分享一下编译的过程、遇到的问题以及相应的解决办法,以供接下来学习的人查阅。编译准备1、下载所需的软件先去官网下载hadoop2.7.1源码并解压,打开解压目录下的BUILDING.txt,编译过程和需要的软件其实就是根据这个文档里的描述来的。Requirements:* Unix System* JD转载 2017-05-28 23:31:30 · 3502 阅读 · 0 评论 -
通过源码的方式编译hadoop的安装文件
Hadoop2.4.0 重新编译 64 位本地库原创作者:大鹏鸟 时间:2014-07-28环境:虚拟机 VirtualBox,操作系统 64 位 CentOS 6.4下载重新编译需要的软件包apache-ant-1.9.4-bin.tar.gzfindbugs-3.0.0.tar.gzprotobuf-2.5.0.tar.gzapache-maven-3.0.5-bin.tar.gz下载 h转载 2017-05-27 00:27:20 · 995 阅读 · 0 评论 -
Secondary NameNode:它究竟有什么作用?(转自:http://blog.csdn.net/xh16319/article/details/31375197)
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:Second转载 2017-05-27 00:58:06 · 559 阅读 · 0 评论 -
分布式系统概述(来自学习资料)
2 分布式系统概述注:由于大数据技术领域的各类技术框架基本上都是分布式系统,因此,理解hadoop、storm、spark等技术框架,都需要具备基本的分布式系统概念 2.1 分布式软件系统(Distributed Software Systems)² 该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络通信进行协作,实现最终的整体功能² 比如分布式操作系统、分布式程转载 2017-05-26 23:45:14 · 769 阅读 · 0 评论 -
HDFS的工作机制,HDFS写数据流程,HDFS读数据流程(来自学习资料)
4.hdfs的工作机制(工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力) 注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用,但实际并非如此。要想将技术准确用在恰当的地方,必须对技术有深刻的理解4.1 概述1. HDFS集群分为两大角色:NameNode、DataNode (Secondary转载 2017-05-30 17:31:10 · 1198 阅读 · 0 评论 -
NAMENODE工作机制,元数据管理(元数据存储机制、元数据手动查看)、元数据的checkpoint、元数据目录说明(来自学习资料)
NAMENODE工作机制学习目标:理解namenode的工作机制尤其是元数据管理机制,以增强对HDFS工作原理的理解,及培养hadoop集群运营中“性能调优”、“namenode”故障问题的分析解决能力 问题场景:1、集群启动后,可以查看目录,但是上传文件时报错,打开web页面可看到namenode正处于safemode状态,怎么处理?解释:safemode是namenode的一种状态(activ转载 2017-05-30 19:03:51 · 5734 阅读 · 0 评论 -
MapTask并行度决定机制、FileInputFormat切片机制、map并行度的经验之谈、ReduceTask并行度的决定、MAPREDUCE程序运行演示(来自学笔记)
1.3 MapTask并行度决定机制maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢? 1.3.1mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻转载 2017-06-03 14:44:26 · 2601 阅读 · 0 评论 -
mapreduce的shuffle机制(来自学习笔记)
3. MAPREDUCE原理篇(2)3.1 mapreduce的shuffle机制3.1.1 概述:v mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;vshuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存)v具体来说:就是将maptask输出的处理结果数据,分发给reducetask,转载 2017-06-03 11:41:03 · 1353 阅读 · 0 评论 -
使用Mapreduce案例编写用于统计文本中单词出现的次数的案例、mapreduce本地运行等,Combiner使用及其相关的知识,流量统计案例和流量总和以及流量排序案例,自定义Partitioner
工程结构:在整个案例过程中,代码如下:WordCountMapper的代码如下: package cn.toto.bigdata.mr.wc; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; impor原创 2017-06-02 01:03:46 · 3692 阅读 · 0 评论 -
MapReduce原理与设计思想(转载:http://blog.jobbole.com/80619/)
简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapReduce合并了两种经典函数:映射(Mapping)对集合里的每个目标应用同一个操作。即,如果你想把表转载 2017-06-02 00:50:22 · 754 阅读 · 0 评论 -
模拟MapReduce编程的程序案例(用于统计文本中单词出现频率)
本案例要实现的目标:1、模拟修改配置,通过发指令的方式统计一个文件中出现的单词的字数。案例代码结构如下:在整个案例中需要有以下几类文件:A:worker服务端,用于类似Mapreduce接收jar,接收配置文件,执行业务逻辑B:程序客户端、用于组装配置文件、发送业务执行的命令(听过socket发送jarfile、jobconf、和job2run的命令)代码结构,每个包和代码作用介绍 cn.to原创 2017-06-01 02:09:20 · 2377 阅读 · 0 评论 -
Hadoop-rpc调用案例,服务端,客户端代码案例
1. Hadoop-rpc框架在hadoop中提供了一个rpc框架,通过这个rpc框架可以编写一个rpc服务端程序,然后发布出去供客户端调用。1.1.服务端代码其中服务端(example-hadoop-rpc-server),其中代码结果如下: 代码说明: ClientNamenodeProtocal 接口定义 NameNode原创 2017-05-31 19:30:21 · 1581 阅读 · 0 评论 -
Mapreduce和Yarn概念,参数优化,作用,原理,MapReduce计数器 Counter,MapReduce 多job串联之ControlledJob(来自学习资料)
3.3. MapReduce与YARN3.3.1 YARN概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序3.3.2 YARN的重要概念1、 yarn并不清楚用户提交的程序的运行机制2、 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)3、 y转载 2017-06-04 14:33:35 · 1369 阅读 · 0 评论