1、基础环境
组件 | 版本 | 备注 |
hadoop | 3.4.0 | 官方下载 |
hive | 3.1.3 | 自编译 |
spark | spark-3.5.3-bin-hadoop3 | 官方下载,需要内置hive的jar相关内容 |
paimon | 0.9.0 | Maven官方下载 |
jdk | 1.8.0_41 | |
maven | 3.9.6 | 固定版本 |
2、停止服务、清理日志
先停止,清理数据
sudo kill -9 $(ps -ef|grep hadoop|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep spark|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep flink|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsa|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsec|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/spark/logs/*
rm -rf /cluster/hive/logs/*
rm -rf /cluster/*.log
rm -rf /cluster/hadoop3/data/*
rm -rf /tmp/*
3、格式化Hadoop并启动
/cluster/hadoop3/bin/hdfs namenode -format
/cluster/hadoop3/sbin/start-all.sh
4、启动spark
/cluster/spark/sbin/start-all.sh
5、启动Hive服务
nohup /cluster/hive/bin/hivemetastore2 > 2a.log &
nohup /cluster/hive/bin/hiveserver2 > 2b.log &
6、Hdfs上创建存储目录
/cluster/hadoop3/bin/hdfs dfs -mkdir -p /spark-eventLog
/cluster/hadoop3/bin/hdfs dfs -mkdir -p /paimon/warehouse/example
7、启动spark-sql
/cluster/spark/bin/spark-sql --jars /cluster/lib/paimon-spark-3.5-0.9.0.jar --conf spark.sql.catalog.paimon=org.apache.paimon.spark.SparkCatalog --conf spark.sql.catalog.paimon.metastore=hive --conf spark.sql.catalog.paimon.uri=thrift://10.10.10.99:9083 --conf spark.sql.catalog.paimon.warehouse=hdfs://10.10.10.99:8020/paimon/warehouse/hive-paimon --conf spark.sql.extensions=org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions --conf spark.serializer=org.apache.spark.serializer.KryoSerializer
8、使用paimon创建数据库、数据表
-- 切换到paimon catalog
USE paimon;-- 在已建立的paimon catalog中,建立数据库。
CREATE DATABASE my_db;
USE my_db;-- 建立Paimon表。
CREATE TABLE my_table (
uuid int,
name string,
height double,address string
) TBLPROPERTIES (
'primary-key' = 'uuid'
);
9、插入数据
-- 向Paimon中写入数据。
INSERT INTO paimon.my_db.my_table VALUES (1, 'M', 173.5,'北京市朝阳区'), (2, 'G',185, '上海市'), (3, 'cherry', 168.0,'河北省秦皇岛市');
10、在hive中查看数据
/cluster/hive/bin/beeline
!connect jdbc:hive2://10.10.10.99:10000输入用户名和密码
备注需要将将paimon-hive-connector-3.1-0.9.0.jar上传到hive的lib目录下/cluster/hive/lib
否则,查询执行select的时候会报错。
使用show databases; show tables 相关命令可以查询数据库和表
使用select在hive中查询数据
11、HDFS上查看数据存储
系统进程,通过jps -l查看