2018年11月_夏至1208

原创 Hadoop HA高可用集群搭建测试

摘要在Hadoop2.0之前，只有一个NameNode，若NameNode机器出现故障，那么整个集群都无法使用。这个架构存在单点故障的隐患。之后推出了HA的架构，即有两个NameNode，一台为active状态，一台为standby状态。active NameNode对外提供服务，standby实时同步了active NameNode的元数据，当active NameNode节点出现故障，s...

2018-11-29 11:02:20 1886

原创 Yarn HA高可用架构

摘要 yarn在hadoop大数据生态圈中，是一个资源管理调度的角色。在伪分布式架构中，ResourceManager只有一个，这样容易产生单点故障问题。在生产中，一般会部署HA的高可用架构。这样，在active RM挂掉后，standby RM会切换为active状态，并对外提供服务。架构设计 yarn HA架构如图所示： RM：在ZooKeeper上会有一个/yarn-l...

2018-11-26 15:17:21 674

原创 HDFS HA架构设计

概述我们知道，hdfs是一个分布式存储结构，里面有namenode和datanode节点。在生产中，如果namenode只有一个，会有单点故障的问题，当namenode挂掉，整个hdfs就无法向外服务。为解决这个问题，一般采用HA(high availability) 高可用架构，即部署两台namenode，那么当一台namenode挂掉后，另一台可立即成为active状态向外提供服务。架...

2018-11-26 11:14:23 410

原创 hive元数据相关表结构

概述 hive是一个构建在hadoop hdfs之上的一个数据仓库。它能够对大量数据进行读写与管理。hive元数据默认是存在Derby数据库上，但是Derby是一个单session，每次只允许一个客户端连接，所以并不适用于生产。一般大家都把hive元数据存在mysql之上，不仅满足多用户连接，也可以将mysql搭建一主一备的集群，防止单点故障。hive-site.xml配置下图是将hive...

2018-11-22 14:15:49 335

原创 Linux批量修改文件后缀名

如上图，文件夹下有1.20182.20183.2018三个文件，现在需把后缀名批量修改为2019执行脚本为find . -name "*.2018" | awk -F "." '{print $2}' | xargs -i -t mv ./{}.2018 ./{}.2019执行后效果为...

2018-11-20 11:05:04 538

原创 maven编译spark2.3.2源码

软件版本spark 2.3.2scala 2.11.8jdk 1.8+maven 3.3.9hadoop-2.6.0-cdh5.7.0编译步骤：1、先安装配置jdk，scala，maven（略）2、到spark官网下载源码，我这里是用的spark-2.3.2版本。注意我们是下载源码，选择Source Code。然后点击spark-2.3.2.tgz下载。然后将包传到linu...

2018-11-07 17:06:04 1081

原创 maven编译spark Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile

今天在用maven编译spark的时候，遇到一个错误，见下图而且没有更多的报错信息，在网上找了很多帖子，方法就是在编译之前，执行sh change-scala-version.sh 2.11根据自己所用的scala版本，如果是10就执行2.10。但是我是执行了这个命令的。还是报这个错误。而且用命令mvn -X查看结果为[hadoop@hadoop001 ~]$ mvn -X Ap...

2018-11-07 15:54:32 7345

原创 Yarn三种调度策略对比

理想情况下，我们应用对Yarn资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中，负责给应用分配资源的就Scheduler。其实调度本身就是一个难题，很难找到一个完美的策略可以解决所有的应用场景。为此，Yarn提供了多种调度器和可配置的策略供我们选择。在Yarn中有三种调度器可以选择：F...

2018-11-01 09:20:00 10433 2

qq_34382453的博客