完成SparkSQL与SDB的对接。要求如下:
1.完成Spark的部署安装;
2.完成与SDB的对接;
3.从SparkSQL创建表映射到SDB集合,验证对接是否成功;
spark的部署安装
第一步:ssh免密登录配置,生成公钥和私钥
ssh-keygen -t rsa
第二步:将公钥拷贝到要免密登录的(spark集群)机器上
ssh-copy-id ysx
ssh-copy-id ysx1
ssh-copy-id ysx2
第三步:拷贝jdk压缩包到系统并解压到/opt目录下(集群机子内同理)
tar -zxvf jdk-8u261-linux-x64.tar.gz -C /opt/
第四步:配置环境变量(集群机子内同理)
#获取jdk部署路径
pwd
/opt/jdk1.8.0_261
#打开/etc/profile文件
vim /etc/profile
在profile文件末尾添加一下变量
#JAVA_HOME
export JAVA_HOME=/opt/jdk1.8.0_261
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
#让修改后的文件生效
source /etc/profile
#查看jdk版本看是否安装成功
java -version
第五步:上传spark安装包到系统并解压到指定路径
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/
mv spark-2.1.1-bin-hadoop2.7 spark
第六步:进入spark安装目录下的conf文件夹
cd /opt/spark/conf
第七步:修改配置文件名称
mv /opt/spark/conf/slaves.template slaves
mv /opt/spark/conf/spark-env.sh.template spark-env.sh
第八步:修改/opt/spark/conf/slaves文件,添加工作节点
vim slaves
#添加以下内容
ysx
ysx1
ysx2
第九步:修改/opt/spark/conf/spark-env.sh文件
vim spark-env.sh
#添加以下配置
SPARK_MASTER_PORT="7077"
SPARK_MASTER_HOST="ysx"
第十步:修改/opt/spark/sbin/spark-config.sh文件
#添加以下配置
export JAVA_HOME=/opt/jdk1.8.0_261
完成与SDB的对接:
第一步:将SequoiaDB安装目录下的/opt/sequoiadb/spark/spark-sequoiadb_2.11-3.4.jar以及/opt/sequoiadb/java/sequoiadb-driver-3.4.jar拷贝到spark安装目录下的jars文件夹中(/opt/spark/jars/)
cp /opt/sequoiadb/spark/spark-sequoiadb_2.11-3.4.jar /opt/spark/jars/
cp /opt/sequoiadb/java/sequoiadb-driver-3.4.jar /opt/spark/jars/
第二步:修改/opt/spark/conf/spark-env.sh文件
#添加以下配置
SPARK_CLASSPATH="/opt/spark/jars/sequoiadb-driver-3.4.jar:/opt/spark/jars/spark-sequoiadb_2.11-3.4.jar"
第三步:启动saprk
/opt/spark/sbin/start-all.sh
第四步:查看spark进程
jps
第五步:连接到sparkSQL
bin/spark-sql --master spark://ysx:7077
从SparkSQL创建表映射到SDB集合
create table employee (empno int,ename string, age int) using com.sequoiadb.spark options (host 'ysx:11810,ysx1:11810,ysx2:11810', collectionspace 'company', collection 'employee', username 'sdbadmin', password '1234');