自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Hadoop HA高可用集群搭建测试

摘要  在Hadoop2.0之前,只有一个NameNode,若NameNode机器出现故障,那么整个集群都无法使用。这个架构存在单点故障的隐患。之后推出了HA的架构,即有两个NameNode,一台为active状态,一台为standby状态。active NameNode对外提供服务,standby实时同步了active NameNode的元数据,当active NameNode节点出现故障,s...

2018-11-29 11:02:20 1886

原创 Yarn HA高可用架构

摘要  yarn在hadoop大数据生态圈中,是一个资源管理调度的角色。在伪分布式架构中,ResourceManager只有一个,这样容易产生单点故障问题。在生产中,一般会部署HA的高可用架构。这样,在active RM挂掉后,standby RM会切换为active状态,并对外提供服务。架构设计  yarn HA架构如图所示:  RM:  在ZooKeeper上会有一个/yarn-l...

2018-11-26 15:17:21 674

原创 HDFS HA架构设计

概述  我们知道,hdfs是一个分布式存储结构,里面有namenode和datanode节点。在生产中,如果namenode只有一个,会有单点故障的问题,当namenode挂掉,整个hdfs就无法向外服务。为解决这个问题,一般采用HA(high availability) 高可用架构,即部署两台namenode,那么当一台namenode挂掉后,另一台可立即成为active状态向外提供服务。架...

2018-11-26 11:14:23 410

原创 hive元数据相关表结构

概述 hive是一个构建在hadoop hdfs之上的一个数据仓库。它能够对大量数据进行读写与管理。hive元数据默认是存在Derby数据库上,但是Derby是一个单session,每次只允许一个客户端连接,所以并不适用于生产。一般大家都把hive元数据存在mysql之上,不仅满足多用户连接,也可以将mysql搭建一主一备的集群,防止单点故障。hive-site.xml配置 下图是将hive...

2018-11-22 14:15:49 335

原创 Linux批量修改文件后缀名

如上图,文件夹下有1.20182.20183.2018三个文件,现在需把后缀名批量修改为2019执行脚本为find . -name "*.2018" | awk -F "." '{print $2}' | xargs -i -t mv ./{}.2018 ./{}.2019执行后效果为...

2018-11-20 11:05:04 538

原创 maven编译spark2.3.2源码

软件版本spark 2.3.2scala 2.11.8jdk 1.8+maven 3.3.9hadoop-2.6.0-cdh5.7.0编译步骤:1、先安装配置jdk,scala,maven(略)2、到spark官网下载源码,我这里是用的spark-2.3.2版本。注意我们是下载源码,选择Source Code。然后点击spark-2.3.2.tgz下载。然后将包传到linu...

2018-11-07 17:06:04 1081

原创 maven编译spark Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile

今天在用maven编译spark的时候,遇到一个错误,见下图而且没有更多的报错信息,在网上找了很多帖子,方法就是在编译之前,执行sh change-scala-version.sh 2.11根据自己所用的scala版本,如果是10就执行2.10。但是我是执行了这个命令的。还是报这个错误。而且用命令mvn -X查看结果为[hadoop@hadoop001 ~]$ mvn -X Ap...

2018-11-07 15:54:32 7345

原创 Yarn三种调度策略对比

  理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。  在Yarn中有三种调度器可以选择:F...

2018-11-01 09:20:00 10433 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除