hadoop
文章平均质量分 85
mllhxn
这个作者很懒,什么都没留下…
展开
-
Hadoop学习之SecondaryNameNode
在启动Hadoop时,NameNode节点上会默认启动一个SecondaryNameNode进程,使用JSP命令可以查看到。SecondaryNameNode光从字面上理解,很容易让人认为是NameNode的热备进程。其实不是,SecondaryNameNode是HDFS架构中的一个组成部分。它并不是元数据节点出现问题时的备用节点,它和元数据节点负责不同的事情。1、Seco转载 2014-10-02 09:59:50 · 475 阅读 · 0 评论 -
hadoop2/MRv2 YARN整体了解 ResourceManager
1.ResourceManager是什么?能干什么?分配的资源到底是什么?ResourceManager相当于整个系统的master,主要功能是启动application的ApplicationMaster和分配系统资源。ResourceManager分配资源,具体分配的什么资源包括:内存、IO、网络。不过目前只是内存。2.ResourceManager的核心代码是什么?ResourceManage转载 2015-12-30 00:53:28 · 863 阅读 · 0 评论 -
Hadoop Yarn 框架原理及运作机制
1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1.2 YARN基本组成结转载 2015-12-30 01:01:19 · 580 阅读 · 1 评论 -
hadoop2 YARN/MRv2 Node Manager
整体架构NodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)。 【NodeStatusUpdater】 当NM启动转载 2015-12-30 01:10:54 · 670 阅读 · 0 评论 -
hadoop2获取job执行进度
zhuan:http://www.aboutyun.com/thread-7996-1-1.htmlorg.apache.hadoop.mapreduce.Job.mapProgress() org.apache.hadoop.mapreduce.Job.reduceProgress()http://hadoop.apache.org/docs/current/api/org/apache/ha转载 2016-05-31 00:08:11 · 2270 阅读 · 0 评论 -
java.io.IOException: No FileSystem for scheme: hdfs
转:http://www.cnblogs.com/justinzhang/p/4983673.htmljava.io.IOException: No FileSystem for scheme: hdfs在这篇文章中,介绍了如何将Maven依赖的包一起打包进jar包。使用maven-assembly打成jar后,将这个jar提供给其他工程引用的时候,报出如下错误转载 2016-06-06 18:19:11 · 691 阅读 · 0 评论 -
Hadoop YARN如何调度内存和CPU
转: http://www.searchbi.com.cn/showcontent_78166.htm在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的“资源调度”)转载 2016-07-12 09:38:24 · 909 阅读 · 0 评论 -
Hadoop多用户资源管理–Fair Scheduler介绍与配置
转:http://lxw1234.com/archives/2015/10/536.htm在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等待,这种当然很不合理,我们希望每个业务都有属于自己的特定资源来运行MapRe转载 2016-07-27 10:56:50 · 4190 阅读 · 0 评论 -
Hdfs block
1.修改hdfs块大小的方法在hdfs-site.xml文件中修改配置块大小的地方,dfs.block.size节点。 重启集群后,重新上传文件到hadoop集群上,新增的文件会按照新的块大小存储,旧的不会改变。2.hadoop指定某个文件的blocksize,而不改变整个集群的blocksize文件上传的时候,使用下面的命令即可 hdfs dfs -D dfs.blocksize=134217原创 2016-07-09 18:15:56 · 627 阅读 · 0 评论 -
yarn 关于资源参数设置
yarn-site.xml yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb说明:单个容器可申请的最小与最大内存,应用在运行申请内存时不能超过最大值,小于最小值则分配最小值,从这个角度看,最小值有点想操作系统中的页。最小值还有另外一种用途,计算一个节点的最大container数目注:这原创 2016-07-09 18:49:44 · 24432 阅读 · 0 评论 -
HDFS文件写入与读取
HDFS文件写入与读写副本(3个)选择策略说明:1. 若client为DataNode节点,那存储block时,规则为:副本1,同client的节点上;副本2,不同机架节点上;副本3,同第二个副本机架的另一个节点上;其他副本随机挑选。2. 若client不为DataNode节点,那存储block时,规则为:副本1,随机选择一个节点上;副本2,不同副本1,转载 2017-05-03 15:05:10 · 4251 阅读 · 0 评论 -
hadoop job yarn 命令
hadoop命令行 与job相关的:命令行工具 • 1.查看 Job 信息:hadoop job -list 2.杀掉 Job: hadoop job –kill job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir原创 2015-09-06 20:25:43 · 7697 阅读 · 0 评论 -
hdfs 客户端挂载,集群间复制
客户端挂载表core-site.xml配置 fs.defaultFS viewfs://nsX 整个Federation集群对外提供服务的NS逻辑名称, 注意,这里的协议不再是hdfs,而是新引入的viewfs 这个逻辑名称会在下面的挂载表中用到*core-site.xml配置fs.viewfs.mounttable.defau原创 2015-08-03 22:50:45 · 1053 阅读 · 0 评论 -
hadoop2提交到Yarn: Mapreduce执行过程分析
1 概述该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce,是一种模式,适合解决并行计算的问题,比如TopN、贝叶斯分类等。注意,是并行计算,而非迭代计算,像涉及到层次聚类的问题转载 2015-10-06 15:24:31 · 3697 阅读 · 0 评论 -
Hadoop 2.0 NameNode HA和Federation实践
A:NNA、NN2(或者更多个NN节点)只有一个是Active状态,通过自带ZKFailoverController组件(zookeeper客户端)和zookeeper集群协同对所有NN节点进行检测和选举来达到此目的。B:Active NN 的EditLog 写入共享的JournalNode集群中,Standby NN通过JournalNode集群获取Editlog,并在本地运行来保持和A转载 2014-10-02 10:06:53 · 976 阅读 · 0 评论 -
Hadoop mapreduce原理学习
最近整了很长一段时间才了解了map reduce的工作原理,shuffle是mapreduce的心脏,了解了这个过程,有助于编写效率更高的mapreduce程序和hadoop调优。自己画了一幅流程图(点击查看全图):转载 2014-10-03 13:00:56 · 493 阅读 · 0 评论 -
hadoop小文件解决方案
一、 概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给Hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间。这样name转载 2014-10-03 16:12:06 · 495 阅读 · 0 评论 -
Hadoop 调度器
FIFO 调度器集成在 JobTracker 中的原有调度算法被称为 FIFO。在 FIFO 调度中,JobTracker 从工作队列中拉取作业,最老的作业最先。这种调度方法不会考虑作业的优先级或大小,但很容易实现,而且效率很高。公平调度公平共享调度器的核心概念是,随着时间推移平均分配工作,这样每个作业都能平均地共享到资源。结果是只需较少时间执行的作业能够访问 CPU,那些转载 2014-10-14 00:21:02 · 982 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数(hive,hbase)
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputF转载 2014-10-13 22:59:13 · 1278 阅读 · 0 评论 -
Hadoop之压缩
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个g转载 2014-10-12 22:04:12 · 858 阅读 · 0 评论 -
hadoop job调优
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutpu转载 2014-10-15 20:13:38 · 972 阅读 · 0 评论 -
HDFS snapshot操作实战
Hadoop从2.1.0版开始提供了HDFS SnapShot的功能。一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。快照在下面场景下是非常有用:防止用户的错误操作:管理员可以通过以滚动的方式周期性设置一个只读的快照,这样就可以在文件系统上有若干份只读快照。如果用户意外地删除了一个文件,就可以使用包含该文件的最新只读快照来进行回复。备份:管理员可以根据需求来备转载 2015-08-30 22:20:26 · 529 阅读 · 0 评论 -
Hadoop与Spark常用配置参数总结
背景MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。MapReduce重要配置参数1. 资源相关参数(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map T转载 2015-08-30 20:26:07 · 699 阅读 · 0 评论 -
hadoop集群数据迁移
hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上,使得HDFS RPC版本是兼容的。 例如:hadoop di转载 2015-08-30 23:15:31 · 876 阅读 · 0 评论 -
查看修复HDFS中丢失的块
检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/file -locations -blocks -files解决方法如果文件不重转载 2017-05-11 16:14:22 · 2769 阅读 · 0 评论