数据湖工具hudi docker demo安装与使用
一、hudi介绍
二、环境准备
-
jdk
-
maven
-
docker
-
docker-compose
-
kcat
-
jq
yum -y install jq
-
增加host
#该演示通过主机名引用了容器中运行的许多服务。将以下设置添加到 /etc/hosts vim /etc/hosts 127.0.0.1 adhoc-1 127.0.0.1 adhoc-2 127.0.0.1 namenode 127.0.0.1 datanode1 127.0.0.1 hiveserver 127.0.0.1 hivemetastore 127.0.0.1 kafkabroker 127.0.0.1 sparkmaster 127.0.0.1 zookeeper
三、安装hudi
-
拉取源码
#github拉取 git clone https://github.com/apache/hudi.git #镜像拉取 git clone https://ghproxy.com/github.com/apache/hudi.git
-
打包源码
cd /opt/software/hudi mvn clean package -Pintegration-tests -DskipTests
-
运行启动脚本
cd /opt/software/hudi/docker ./setup_demo.sh #启动完成后,查看docker容器运行状况 docker ps
四、问题与解决
- 也许你正在使用jre环境,而不是jdk,属于jdk环境变量问题。
-
报错如下图:
-
解决办法:
#如果有jdk,那就跳过安装,直接配置jdk环境变量 #如果没有则可以照第一步安装jdk,并且配置jdk环境变量
-
- aliyun的maven仓库里找不到io.confluent 下的几个jar包
- 报错如下图:
- 解决办法:
#前往maven仓库下载对应的jar包放入本地仓库的文件夹里,一般存于maven下的localRepo文件夹下 cd /opt/software/maven3.9/localRepo/ #先查看lastUpdate文件 find ./ -name *.lastUpdate #删除所有 find ./ -type f -name "*lastUpdate" -delete #重新下载jar包,并放入对应目录,下面是下载链接 https://mvnrepository.com/artifact/io.confluent/kafka-avro-serializer/5.3.4 https://mvnrepository.com/artifact/io.confluent/kafka-schema-registry-client/5.3.4 https://mvnrepository.com/artifact/io.confluent/common-config/5.3.4 https://mvnrepository.com/artifact/io.confluent/common-utils/5.3.4
- 报错如下图:
- 未完待续