---Hudi
文章平均质量分 54
Hudi
寒 暄
自渡
展开
-
Hudi To Hive
Hudi To Hive首先把hudi-hadoop-mr拷贝到hive的lib目录下。cp packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.5.3-sources.jar /opt/hdk/hive/lib/[root@ha1 /]# scp /opt/hdk/hive/lib/hudi-hadoop-mr-bundle-0.5.3-sources.jar root@ha2:/opt/hdk/hive/lib/hudi原创 2021-06-01 14:20:04 · 1622 阅读 · 0 评论 -
Hudi Merge_On_Read模式
Merge_On_Read模式操作插入数据merge on read 主要是要是加入option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY,DataSourceWriteOptions.MOR_TABLE_TYPE_OPT_VAL)参数。package com.hudiimport org.apache.hudi.DataSourceWriteOptionsimport org.apache.hudi.config.{HoodieIndexConfig,原创 2021-06-01 11:40:54 · 1488 阅读 · 0 评论 -
Spark操作Hudi
pom文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav原创 2021-05-28 14:28:54 · 2509 阅读 · 3 评论 -
hudi概念
近实时摄取对于 RDBMS 关系型的摄入,Hudi提供了更快的 Upset 操作。例如,你可以通过 MySql binlog 的形式或者 Sqoop 导入到 hdfs上的对应的 Hudi表中,这样操作比 Sqoop 批量合并 job(Sqoop merge)和复杂合并工作流更加快速高效。对于NoSql的数据库,比如Cassandra,Voldemort,Hbase,这种可以存储数十亿行的数据库。采用完全批量加载是根本不可行的,并且如果摄取数据要跟上通常较高的更新量,则需要更有效的方法。即使对于像 Ka原创 2021-05-10 11:22:58 · 2780 阅读 · 0 评论 -
sparkShell操作hudi
使用sparkShell连接hudi[root@ha1 bin]#spark-shell \--packages org.apache.hudi:hudi-spark-bundle_2.11:0.5.3,org.apache.spark:spark-avro_2.11:2.4.4,org.apache.avro:avro:1.8.2 \--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'创建表import or原创 2021-05-10 10:20:13 · 1114 阅读 · 3 评论 -
Hudi编译
编译hudi首先安装maven,修改仓库为aliyun,准备进行maven编译。<mirror> <id>aliyunmaven</id> <mirrorOf>*</mirrorOf> <name>阿里云公共仓库</name> <url>https://maven.aliyun.com/repository/public</url></mirror>原创 2021-04-27 16:19:43 · 1349 阅读 · 0 评论