Hadoop
FangStar8Jeff
这个作者很懒,什么都没留下…
展开
-
Hadoop HA 元数据管理架构
原创 2021-01-15 10:55:14 · 134 阅读 · 0 评论 -
Idea开发Spark程序,导入包Hadoop-client报错
因为默认的CDH仓库我们是访问不到的,所以需要再pom.xml中添加一个<repositories> <repository> <id>cloudera</id> <name>cloudera</name> <url>https://repository.cloudera...原创 2019-05-05 17:01:22 · 663 阅读 · 0 评论 -
Hadoop编译
网上有关Hadoop编译的博客和教程遍地都是,但是如果小伙伴你不注意编译时候的各个版本的编号,那就会像我这样,东凑西凑,最后仍然一堆错误,全是错,不得不说,这个Hadoop编译真的是一个大坑。注意:版本一定要和各个博主博客编译成功的版本相对应,不然真的会浪费非常非常多的时间。这次我编译的版本是hadoop-2.6.5, 编译的目的就是为了更好地使用编译后的压缩如果你想编译2....原创 2019-04-16 15:25:12 · 140 阅读 · 0 评论 -
HDFS的读写流程
HDFS的写流程:1)客户端先调用Distributed FileSystem里面的create方法,通过RPC协议,发送请求给NameNode,NameNode会先验证输入的路径是否存在和用户的访问权限是否通过,如果条件都符合,则先将HDFS的操作写入NameNode的edits文件(wal)中。2)NameNode返回请求给客户端,告其可以上传文件3)客户端再一次发送请求,询...原创 2019-04-09 20:52:19 · 155 阅读 · 0 评论 -
mapreduce job在yarn上的工作流程
转载来自https://blog.csdn.net/qq_42694416/article/details/83998578MR JOB提交到Yarn的工作流程Yarn的架构设计Yarn的工作流程(属于同种说法)工作流程图:1、用户向Yarn的RM提交应用程序,其中包括ApplicationMaster程序(应用程序的主程序),启动ApplicationMaster命令等。将作业提交...转载 2019-04-12 15:21:18 · 198 阅读 · 0 评论 -
Hadoop完全分布式搭建流程
一、版本Centos6.9 64位java version "1.8.0_45"zookeeper3.4.6.tar.gzhadoop-2.6.0-cdh5.7.0二、环境准备如果集群是搭建在阿里云上,则无需做这一步,因为阿里云的私有ip是固定的如果是搭建在虚拟机上,则需要设置虚拟机的ip地址(3台)1、设置ip地址[root@hadoop00...原创 2019-04-02 17:55:00 · 1120 阅读 · 0 评论 -
HDFS&YARN HA 架构简析
https://my.oschina.net/u/4005872/blog/3029971转载 2019-04-02 16:07:16 · 143 阅读 · 0 评论 -
Hadoop HA 架构图概述
为了解决HDFS1.0的设计存在的单点故障问题,HDFS2.0开始采用了HA(High Availability高可用)架构。 在HDFS HA中,设置两个NameNode,一个处于Active状态对外进行服务,另一个处于Standby状态,随时待命成为Active。因为Standby NN 是 Active NN的“热备份” ,所以Active的状态信息必须实时同步到Stand...原创 2019-03-28 10:43:17 · 893 阅读 · 0 评论 -
MapReduce中Splits的划分
MapReduce框架在执行时,先使用InputFormat模块做Map的预处理,比如验证输入的格式是否符合输入的定义;然后,将输入文件划分为逻辑上的多个InputSplit,InputSplit是MapReduce对文件进行处理和运算的输入单位,只是一个逻辑概念,每个InputSplit并没有对文件进行实际的切割,只是记录了要处理的数据的位置和长度。 因为InputSp...原创 2019-04-06 14:42:12 · 1560 阅读 · 1 评论 -
Yarn的资源申请(粗粒度和细粒度)
粗粒度资源申请(Spark)在Application执行之前,将所有的资源申请完毕,当资源申请成功后,才会进行任务的调度,当所有的task执行完成后,才会释放这部分资源。优点:在Application执行之前,所有的资源都申请完毕,每一个task直接使用资源就可以了,不需要task在执行前自己去申请资源,task启动就快了,task执行快了,stage执行就快了,job就快了,applic...原创 2019-04-04 18:34:09 · 1003 阅读 · 1 评论 -
小文件有什么危害?(hive、spark到hdfs)
在HDFS中,一个bolck块的默认大小是128M,当一个文件的大小小于一个block的大小,则被认为是小文件危害:1、NameNode需要的内存大大增大,增加NameNode压力,这样会限制了集群的扩展。2、在HDFS中,小文件的读写处理速度要远远小于大文件3、Hive中,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,...原创 2019-04-04 18:30:06 · 1126 阅读 · 0 评论 -
yarn 的诞生解决了 Hadoop 1.x 的什么问题?
Hadoop 由MapReduce和HDFS组成,1.x版本设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。Hadoop 2.0由三个分支组成,分别是HDFS、MapReduce和YARN,YARN是Hadoop 2.x中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序...原创 2019-04-04 16:34:45 · 662 阅读 · 0 评论