- 博客(8)
- 收藏
- 关注
原创 Hadoop HA高可用集群搭建测试
摘要 在Hadoop2.0之前,只有一个NameNode,若NameNode机器出现故障,那么整个集群都无法使用。这个架构存在单点故障的隐患。之后推出了HA的架构,即有两个NameNode,一台为active状态,一台为standby状态。active NameNode对外提供服务,standby实时同步了active NameNode的元数据,当active NameNode节点出现故障,s...
2018-11-29 11:02:20 1886
原创 Yarn HA高可用架构
摘要 yarn在hadoop大数据生态圈中,是一个资源管理调度的角色。在伪分布式架构中,ResourceManager只有一个,这样容易产生单点故障问题。在生产中,一般会部署HA的高可用架构。这样,在active RM挂掉后,standby RM会切换为active状态,并对外提供服务。架构设计 yarn HA架构如图所示: RM: 在ZooKeeper上会有一个/yarn-l...
2018-11-26 15:17:21 674
原创 HDFS HA架构设计
概述 我们知道,hdfs是一个分布式存储结构,里面有namenode和datanode节点。在生产中,如果namenode只有一个,会有单点故障的问题,当namenode挂掉,整个hdfs就无法向外服务。为解决这个问题,一般采用HA(high availability) 高可用架构,即部署两台namenode,那么当一台namenode挂掉后,另一台可立即成为active状态向外提供服务。架...
2018-11-26 11:14:23 410
原创 hive元数据相关表结构
概述 hive是一个构建在hadoop hdfs之上的一个数据仓库。它能够对大量数据进行读写与管理。hive元数据默认是存在Derby数据库上,但是Derby是一个单session,每次只允许一个客户端连接,所以并不适用于生产。一般大家都把hive元数据存在mysql之上,不仅满足多用户连接,也可以将mysql搭建一主一备的集群,防止单点故障。hive-site.xml配置 下图是将hive...
2018-11-22 14:15:49 335
原创 Linux批量修改文件后缀名
如上图,文件夹下有1.20182.20183.2018三个文件,现在需把后缀名批量修改为2019执行脚本为find . -name "*.2018" | awk -F "." '{print $2}' | xargs -i -t mv ./{}.2018 ./{}.2019执行后效果为...
2018-11-20 11:05:04 538
原创 maven编译spark2.3.2源码
软件版本spark 2.3.2scala 2.11.8jdk 1.8+maven 3.3.9hadoop-2.6.0-cdh5.7.0编译步骤:1、先安装配置jdk,scala,maven(略)2、到spark官网下载源码,我这里是用的spark-2.3.2版本。注意我们是下载源码,选择Source Code。然后点击spark-2.3.2.tgz下载。然后将包传到linu...
2018-11-07 17:06:04 1081
原创 maven编译spark Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile
今天在用maven编译spark的时候,遇到一个错误,见下图而且没有更多的报错信息,在网上找了很多帖子,方法就是在编译之前,执行sh change-scala-version.sh 2.11根据自己所用的scala版本,如果是10就执行2.10。但是我是执行了这个命令的。还是报这个错误。而且用命令mvn -X查看结果为[hadoop@hadoop001 ~]$ mvn -X Ap...
2018-11-07 15:54:32 7345
原创 Yarn三种调度策略对比
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。 在Yarn中有三种调度器可以选择:F...
2018-11-01 09:20:00 10433 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人