hudi
文章平均质量分 87
数据湖hudi使用记录
第一次看海
这个作者很懒,什么都没留下…
展开
-
第1节 hudi 0.9编译 CDH6.3.2环境
1.准备编译环境1) Maven安装(1)把apache-maven-3.6.1-bin.tar.gz上传到linux的/data/software目录下(2)解压apache-maven-3.6.1-bin.tar.gz到/data/module/目录下面tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /data/module/(3)修改apache-maven-3.6.1的名称为maven(4)添加环境变量到/etc/profile中原创 2021-10-08 15:06:19 · 1585 阅读 · 0 评论 -
第4节 hive spark 查询hudi 数据 环境cdh6.3.2
使用hive带where条件查询发生错误select uid,fullname from member_ro where uid >=0 and uid <20;发现错误java.io.IOException: cannot find class org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat at org.apache.hadoop.hive.ql.io.CombineHiveInputF原创 2021-10-08 16:19:58 · 2038 阅读 · 0 评论 -
第5节 Hudi Merge on Read表和Copy on Write 表对比
一. Merge on Read表和Copy on Write表对比1.写对比(1)编写代码,将数据插入到表中,分别指定不同类型的表。pom.xml参考第3节def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("test_operator").setMaster("local[*]") .set("spark.serializer", "org.apache.sp原创 2021-10-08 16:58:01 · 3164 阅读 · 0 评论 -
第6节 hudi delta Streamer 测试
这一节主要介绍,使用Delta Streamer工具从外部源甚至其他Hudi表中读取和更改的方法,以及使用Hudi数据源通过upserts加速Spark作业的方法。然后使用各种查询引擎来进行查询表数据。1 Write Operations Delta Streamer工具提供3种不同的写入的操作方式(1)Upsert:这是默认操作,输入数据时会通过索引判定为插入或更新。(2)Insert:此操作与upsert类似,但是完全跳过索引,因此效率可能比upsert高的多,但也只适用于允许...原创 2021-10-08 17:32:58 · 943 阅读 · 4 评论 -
第3节 hudi hive 数据同步,实现湖仓一体 cdh6.3.2存在版本兼容问题,spark可以查询HoodieParquetRealtimeInputFormat格式表,hive查询报错
对接hive(1)将Hudi目录编译好的hudi-hadoop-mr-bundle-0.9.0.jar,复制到hive的lib下让hive支持hudi,需要重启hiveserver2服务,或者不加入也可,在执行hive sql 时add jar也可先复制分发jar包到hiveserver2节点[xxx@xxx target]# rsync -rvl hudi-hadoop-mr-bundle-0.9.0.jar xxx@xxx:/data/software/如下图已经放置在hiv原创 2021-10-08 16:02:28 · 2481 阅读 · 0 评论 -
第7节 hudi 0.9 与Flink 1.12.2 集成测试
安装Flink从hudi 0.9的编译pom中查看,编译时用的 flink版本是1.12.2,在官网下载https://archive.apache.org/dist/flink/flink-1.12.2/(1)上传到集群中因为是测试流程,先单节点 上传至cdh06 解压先不做hadoop 环境变量的配置,因为使用的cdh ,先让flink自己识别系统中的hadoop环境(2)启动flink集群cd /data/software/flink-1.12.2/bin原创 2021-10-08 17:51:23 · 811 阅读 · 0 评论 -
第2节 测试spark操作hudi 0.9 cdh6.3.2 版本不兼容时
spark-shell操作(1)spark-shell启动,需要指定spark-avro模块,因为默认环境里没有,spark-avro模块版本号需要和spark版本对应,(可以在maven仓库https://mvnrepository.com/查看spark 个版本对应的spark-avro有没有再maven仓),并且使用Hudi编译好的jar包。发现spark-avro使用的3.0.0版本scala 是2.12,如果使用的spark 是apache spark3.0.0之后的可以参考第一节编.原创 2021-10-08 15:35:06 · 2074 阅读 · 7 评论 -
第8节 hudi 0.9编译 在flink 1.12.2中测试发现guava 冲突
hadoop 版本 apache hadoop 3.1.3hive 版本 apache hive 3.1.2flink 版本 1.12.2hudi 0.9.0编译hudi后 测试flink sql 操作,insert数据发生错误com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)VCaused by: java.lang.NoSuchMethodError:原创 2021-10-13 10:22:45 · 952 阅读 · 0 评论