2、Apache Hudi入门

本文介绍了Apache Hudi的编译过程以及如何快速开始使用Hudi,包括新建项目、插入和更新数据、查询、增量查询及特定时间点查询,并详细讲解了如何将数据同步到Hive进行查询。
摘要由CSDN通过智能技术生成

1、编译

github地址:https://github.com/apache/incubator-hudi

cd incubator-hudi-hoodie-0.4.7
mvn clean install -DskipITs -DskipTests -Dhadoop.version=2.6.0-cdh5.13.0 -Dhive.version=1.1.0-cdh5.13.0

2、快速开始

1、新建项目

新建maven项目,并加入scala框架,然后依次加入spark、hudi依赖

<properties>
   <scala.version>2.11</scala.version>
    <spark.version>2.4.0</spark.version>
    <parquet.version>1.10.1</parquet.version>
    <parquet-format-structures.version>1.10.1-palantir.3-2-gda7f810</parquet-format-structures.version>
    <hudi.version>0.4.7</hudi.version>
</properties>

<repositories>
    <repository>
        <id>cloudera</id>
        <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
</repositories>

<dependencies>
    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_${
   scala.version}</artifactId>
        <version>${
   spark.version}</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_${
   scala.version}</artifactId>
        <version>${
   spark.version}</version>
        <exclusions>
            <exclusion>
                <artifactId>parquet-column</artifactId>
                <groupId>org.apache.parquet</groupId>
            </exclusion>
        </exclusions>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-hive_${
   scala.version}</artifactId>
        <version>${
   spark.version}</version
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值