Daringjw-CSDN博客

将hive_home/conf下面的hive-site.xml拷贝到spark_home/conf下面将hadoop_home/etc/hadoop下面的hdfs-site.xml和core-site.xml拷贝到spark_home/conf下面在拷贝到spark_home/conf所在节点上以local模式启动spark-sql 如果hive的metastore是mysql数据库，需要将mysql驱动放到spark_home/jars目录下面开发环境：在项目中创建文件夹conf,将上...

2021-01-21 12:50:14 1380

原创 Hive实战

参考：https://cwiki.apache.org/confluence/display/Hive/Design Hive元数据部署模式 Hive的元数据主要存储Hive的表和分区等信息。嵌入式模式嵌入式模式通常只用于测试环境。元数据的存储采用Derby数据库，包括数据库和元数据服务都嵌入在HiveServer进程中。这种方式比较便捷，配置少，但是同时只能支持一个用户，因此常用于测试，不适合生产环境。 Hive安装(嵌入式) 说.

2021-01-21 07:21:18 387

原创 Hadoop2.x完全分布式+HA环境搭建及测试验证

前置条件：[1]已制作好CentOS虚拟机模板。[2] 该模板安装好Oracle JDK，且JAVA_HOME值为/usr/java/jdk1.8.0_171-amd64/jre。CentOS模板安装可参考我的博客：https://blog.csdn.net/gobitan/article/details/80993354准备三台虚拟机[1] 搭建完全Hadoop分布式+HA最少需要三台服务器，假设三台服务器的IP地址如下：192.168.159.200 hadoop01...

2021-01-21 07:15:12 332

原创 CentOS7_64 位操作系统模板搭建

说明：鉴于平时使用虚拟机做各种测试的频率非常高，难免有很多重复工作。这里以 CentOS-7-x86_64-Minimal-1804 安装为基础安装了虚拟机，然后再做了如下配置与安装。将该虚拟机做成模板，可以直接拷贝使用，很方便。安装所需软件准备VMware-player-7.1.0下载地址：链接：https://pan.baidu.com/s/1RmAkJPZl2qhKN62JGkpcGg密码：lfs5CentOS7安装 ImageISO 下载地址：http://c...

2021-01-21 07:08:26 150

原创 HDFS集群HA的切换测试

[1]先确认HDFS的主namenode在哪一台机器上[root@hadoop01 ~]# hdfs haadmin -getServiceState nn1active[root@hadoop01 ~]# hdfs haadmin -getServiceState nn2standby通过上面的命令，确认主NameNode在hadoop01上面。[2]通过jps找到主NameNode的进程id[root@hadoop01 ~]# jps1963 NameNode[3..

2021-01-20 21:21:00 343

原创如何从零启动HA集群？

依次在三台机器上启动zookeeper[root@hadoop01 ~]# zkServer.sh start[root@hadoop02 ~]# zkServer.sh start[root@hadoop03 ~]# zkServer.sh start[root@hadoop01 ~]# start-dfs.shstart-dfs.sh会依次启动两个namenode，三个datanode，三个JournalNode和两个zkfc。[root@hadoop01 ~]# mr-j.

2021-01-17 07:58:00 192

原创 spark共享变量

通常，Spark程序计算的时候，我们传递的函数是在远程集群节点上执行的，在函数中使用的所有变量副本会传递到远程节点，计算任务使用变量副本进行计算。这些变量被复制到每台机器上，对远程机器上的变量的更新不会返回driver程序。...

2021-01-16 23:26:48 128

原创 Spark编程核心抽象—RDD

什么是RDD？RDD 是Resilient Distributed Dataset的简称。它是Apache Spark的基本数据结构。它是一个不可变的对象集合，在集群的不同节点上进行计算。Resilient：即在RDD lineage(DAG)的帮助下具有容错能力，能够重新计算由于节点故障而丢失或损坏的数据分区。 Distributed：数据分布在多个节点上。 Dataset：表示所操作的数据集。用户可以通过JDBC从外部加载数据集，数据集可以是JSON文件、CSV文件、文本文件或数据库RDD的

2021-01-16 22:40:49 242

原创 SparkCore_spark安装启动测试

安装运行Spark Spark本身是用Scala编写的，并在Java虚拟机(JVM)上运行，因此在您的笔记本或集群上运行Spark，您所需要的只是安装Java环境。如果您想要使用Python API，您还需要一个Python解释器(版本2.7或更高版本)。如果你想使用R，你需要在你的机器上安装R语言环境。建议开始使用Spark: 在您的笔记本电脑上下载并安装Apache Spark。下载Spark到本地如果您想在本地下载并运行Spark，第一步是确保您的机器上安装了Ja..

2021-01-16 22:33:31 460

原创布隆过滤booleanFilter

布隆过滤器boolean Filter

2021-01-14 13:35:03 141

qq_15625193的博客

原创 Python 2.函数的基本介绍

原创 Python 1.变量和赋值

原创 Spark on Hive 实战