- 博客(12)
- 收藏
- 关注
原创 Spark on Hive 实战
将hive_home/conf下面的hive-site.xml拷贝到spark_home/conf下面 将hadoop_home/etc/hadoop下面的hdfs-site.xml和core-site.xml拷贝到spark_home/conf下面 在拷贝到spark_home/conf所在节点上以local模式启动spark-sql 如果hive的metastore是mysql数据库,需要将mysql驱动放到spark_home/jars目录下面 开发环境:在项目中创建文件夹conf,将上...
2021-01-21 12:50:14 1380
原创 Hive实战
参考:https://cwiki.apache.org/confluence/display/Hive/Design Hive元数据部署模式 Hive的元数据主要存储Hive的表和分区等信息。 嵌入式模式 嵌入式模式通常只用于测试环境。元数据的存储采用Derby数据库,包括数据库和元数据服务都嵌入在HiveServer进程中。这种方式比较便捷,配置少,但是同时只能支持一个用户,因此常用于测试,不适合生产环境。 Hive安装(嵌入式) 说.
2021-01-21 07:21:18 387
原创 Hadoop2.x完全分布式+HA环境搭建及测试验证
前置条件:[1]已制作好CentOS虚拟机模板。[2] 该模板安装好Oracle JDK,且JAVA_HOME值为/usr/java/jdk1.8.0_171-amd64/jre。CentOS模板安装可参考我的博客:https://blog.csdn.net/gobitan/article/details/80993354准备三台虚拟机[1] 搭建完全Hadoop分布式+HA最少需要三台服务器,假设三台服务器的IP地址如下:192.168.159.200 hadoop01...
2021-01-21 07:15:12 332
原创 CentOS7_64 位操作系统模板搭建
说明:鉴于平时使用虚拟机做各种测试的频率非常高,难免有很多重复工作。这里以 CentOS-7-x86_64-Minimal-1804 安装为基础安装了虚拟机,然后再做了如下配置与安装。将该虚拟机做成模板,可以直接拷贝使用,很方便。安装所需软件准备VMware-player-7.1.0下载地址:链接:https://pan.baidu.com/s/1RmAkJPZl2qhKN62JGkpcGg密码:lfs5CentOS7安装 ImageISO 下载地址:http://c...
2021-01-21 07:08:26 150
原创 HDFS集群HA的切换测试
[1]先确认HDFS的主namenode在哪一台机器上[root@hadoop01 ~]# hdfs haadmin -getServiceState nn1active[root@hadoop01 ~]# hdfs haadmin -getServiceState nn2standby通过上面的命令,确认主NameNode在hadoop01上面。[2]通过jps找到主NameNode的进程id[root@hadoop01 ~]# jps1963 NameNode[3..
2021-01-20 21:21:00 343
原创 如何从零启动HA集群?
依次在三台机器上启动zookeeper[root@hadoop01 ~]# zkServer.sh start[root@hadoop02 ~]# zkServer.sh start[root@hadoop03 ~]# zkServer.sh start[root@hadoop01 ~]# start-dfs.shstart-dfs.sh会依次启动两个namenode,三个datanode,三个JournalNode和两个zkfc。[root@hadoop01 ~]# mr-j.
2021-01-17 07:58:00 192
原创 spark共享变量
通常,Spark程序计算的时候,我们传递的函数是在远程集群节点上执行的,在函数中使用的所有变量副本会传递到远程节点,计算任务使用变量副本进行计算。这些变量被复制到每台机器上,对远程机器上的变量的更新不会返回driver程序。...
2021-01-16 23:26:48 128
原创 Spark编程核心抽象—RDD
什么是RDD?RDD 是Resilient Distributed Dataset的简称。它是Apache Spark的基本数据结构。它是一个不可变的对象集合,在集群的不同节点上进行计算。Resilient:即在RDD lineage(DAG)的帮助下具有容错能力,能够重新计算由于节点故障而丢失或损坏的数据分区。 Distributed:数据分布在多个节点上。 Dataset:表示所操作的数据集。用户可以通过JDBC从外部加载数据集,数据集可以是JSON文件、CSV文件、文本文件或数据库RDD的
2021-01-16 22:40:49 242
原创 SparkCore_spark安装启动测试
安装运行Spark Spark本身是用Scala编写的,并在Java虚拟机(JVM)上运行,因此在您的笔记本或集群上运行Spark,您所需要的只是安装Java环境。如果您想要使用Python API,您还需要一个Python解释器(版本2.7或更高版本)。如果你想使用R,你需要在你的机器上安装R语言环境。建议开始使用Spark: 在您的笔记本电脑上下载并安装Apache Spark。 下载Spark到本地 如果您想在本地下载并运行Spark,第一步是确保您的机器上安装了Ja..
2021-01-16 22:33:31 460
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人