hadoop
文章平均质量分 77
任错错
学无止境
展开
-
Hadoop参数调优
1)HDFS参数调优hdfs-site.xml(1)dfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,此参数设置为60The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.serv...原创 2020-04-14 15:23:54 · 237 阅读 · 0 评论 -
2019/06/09总结
1.hdfs读/写/删数据的实现机制从HDFS下载文件过程1.客户端向namenode发起Open File。目的是获取要下载的文件的输入流。namenode收到请求之后,会检查路径的合法性,以及客户端的权限。2.客户端在发起Open File的同时,还会调用 GetBlockLoaction。当第一步的检测都通过之后,namenode会将文件的块信息(元数据信息)封装到输入流,交...原创 2019-06-10 09:53:05 · 151 阅读 · 0 评论 -
Edits和Fsimage文件
知识点1.当执行格式化指令时,会在指定的tmp目录下,生成dfs/name目录。此目录是namenode服务器存储元数据的目录2.当格式化后,启动HFDS前,会生成一个最初的fsimage_0000000000000000000文件3.在 dfs/data目录,这是datanode节点存储数据块的目录。4.元数据的存储目录和数据节点的目录的路径可以分开指定5.在dfs/na...原创 2019-07-11 10:26:14 · 1384 阅读 · 0 评论 -
hadoop-Yarn概述
概述Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在资源利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分...原创 2019-05-07 19:10:38 · 203 阅读 · 0 评论 -
hadoop-MapReduce的Shuffle过程
MapReduce的Shuffle过程2019年4月19日11:35MapTask执行阶段过程知识点1.一个切片(InputSplit)会启动一个MapTask2.每一个MapTask会拥有一个溢写缓冲区3.MapTask输出的key和输出value最开始是进入到溢写缓冲区中,然后针对数据进行处理:分区以及排序4.溢写缓冲区默认100MB,溢写80%. 即...原创 2019-05-16 16:49:49 · 262 阅读 · 0 评论 -
Hadoop小文件的处理方法
处理方式一:开启Hadoop的JVM重用机制,避免海量小文件(海量的map任务)带来的JVM频繁启停。1)uber的原理:Yarn的默认配置会禁用uber组件,即不允许JVM重用。我们先看看在这种情况下,Yarn是如何执行一个MapReducejob的。首先,ResourceManager里的ApplicationManager会为每一个application(比如一个用户提交的M...原创 2019-06-01 15:48:39 · 652 阅读 · 0 评论 -
hadoop-MapReduce源码
MapReduce计算框架重要类体系图--环境结构 |--------JobConf |--------JobClient |--------InputFormat|--------FileInputFormat|--------TextInputFormat |--------RecordReader |--------LineR...原创 2019-06-23 09:55:59 · 183 阅读 · 0 评论 -
hadoop问题总结
在使用启动hadoop命令:start-all.sh 后namenode启动后自动关闭日志中报错:java.io.IOException: NameNode is not formatted.解决办法:把core-site.xml中hadoop.tmp.dir下指定文件路径namenode下的current文件删除 (注意:删除时要stop-all.sh) ...原创 2019-07-01 17:34:38 · 188 阅读 · 0 评论 -
大数据框架搭建集群安装配置步骤大全
一《zookeeper集群安装配置》安装步骤:提示:要关闭虚拟机的防火墙,执行:service iptables stop1.准备虚拟机,安装并配置jdk,1.6以上2.上传zookeeper的安装包 3.4.7版本3.解压安装 tar -xvf …………4.配置zookeeper。5.配置集群模式①切换到zookeeper安装目录的conf目录,其中有一个zoo...原创 2019-06-26 11:52:17 · 1643 阅读 · 1 评论 -
MapReduce-做jion操作时出现数据倾斜时的处理方案
MR框架的话,我们可以利用DistributedCache(Hadoop内置的分布式缓存机制)来实现。DistributedCache是一个提供给Map/Reduce框架的工具,用来缓存指定的文件。当我们使用了这个机制后,MR框架底层会将指定的文件拷贝到slave节点上的缓存中。使用DistributedCache机制,尤其在做join操作时,可以大大的提高作业的运行效率,并...原创 2019-06-23 09:51:11 · 143 阅读 · 0 评论