如何开发一个Flink sink to hudi的连接器

最新推荐文章于 2024-04-21 18:20:51 发布

一点旧一点新

最新推荐文章于 2024-04-21 18:20:51 发布

阅读量152

点赞数

文章标签： flink 大数据

本文链接：https://blog.csdn.net/weixin_42601608/article/details/129575361

版权

为了开发一个Flink sink到Hudi的连接器，您需要以下步骤：

了解Flink和Hudi的基础知识，以及它们是如何工作的。
安装Flink和Hudi，并运行一些示例来确保它们都正常运行。
创建一个新的Flink项目，并将Hudi的依赖项添加到项目的依赖项中。
编写代码，以实现Flink数据的写入到Hudi。为此，您可以扩展AbstractSinkFunction类并重写它的方法，以将数据写入Hudi。
运行您的代码，并验证数据是否正确地写入到Hudi。
如果一切顺利，请将您的代码打包为可部署的项目，并在生产环境中部署它。

请注意，开发Fl

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一点旧一点新

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Flink】Flink 流批一体下新的 Connector

九师兄

09-12

892

出自：作者：任庆盛阿里巴巴研发工程师连接器是 Flink 与外部系统间沟通的桥梁。如：我们需要从 Kafka 里读取数据，在 Flink 里把数据处理之后再重新写回到 HIVE、 elastic search 这样的外部系统里去上图显示的是一项十分典型的例子。我们首先从 kafka 里通过 Source 读取其中的部分记录。

【HuDi】B站增量数据湖探索与实践

m0_54252387的博客

08-05

1177

1. 背景众所周知，越实时的数据越有价值。直播、推荐、审核等领域中有越来越多的场景需要近实时的数据来进行数据分析。我们在探索和实践增量数据湖的过程中遇到许多痛点，如时效性、数据集成同步和批流一体的存储介质不统一的问题。本文将介绍我们针对这些痛点所进行的思考与实践方案。1.1 时效性痛点传统数仓以小时/天级分区，数据完整才可查。然而，一些用户并不需要数据完整，只需要最近的数据做一些趋势分析。因此，现状无法满足用户越来越强的数据时效性需求。传统数仓ETL上一个任务完成后，才能开始下一个任务。即使是小时分区，层级

参与评论您还未登录，请先登录后发表或查看评论

Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

Ververica的博客

12-30

1935

▼ 关注「Apache Flink」，获取更多技术干货▼摘要：本文作者罗龙文，分享了如何通过 Flink CDC、Hudi、Hive、Presto 等构建数据湖。主要内容包括：测试过程环...

使用Flink MySQL cdc分别sink到ES、Kafka、Hudi

白杨Shayne的博客

05-14

1683

进入hudi目录，修改hudi/pom.xml，修改对应组件的版本，由于flink使用的是scala-2.11版本，spark3.x版本以上默认使用scala-2.12预编译，为了节省时间，我们在此使用spark2.4.8以scala-2.11预编译的版本，对应的hadoop版本为2.7。- 修改hadoop-2.7.3/etc/hadoop/hdfs-site.xml，如果目录不存在，给创建上。- 修改hadoop-2.7.3/etc/hadoop/mapred-site.xml。

flink操作hudi数据表

wzp1986的专栏

07-20

3657

基于flink1.14和hudi0.11，演示flink往hudi数据湖流式地写数据、hive从数据湖读数据。

Hudi Flink SQL代码示例及本地调试

主要分享大数据相关的知识，如Spark、Hudi

05-30

1156

之前在Flink Hudi DataStream API代码示例中总结了Hudi Flink DataStream API的代码及本地调试，并且在文中提到其实大家用Table API更多一些，但是我感觉Table API调试源码可能会比较难一点，因为可能会涉及到SQL解析，不清楚Table API的入口在哪里。但是在我总结的上篇文章Flink用户自定义连接器（Table API Connectors）学习总结。

基于flink&hudi批流一体技术

最新发布

weixin_44687655的博客

04-21

1316

Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi 用于管理的数据库层上构建具有增量数据管道的流式数据湖，同时针对湖引擎和常规批处理进行了优化。简言之，Hudi是一种针对分析型业务的、扫描优化的数据存储抽象，它能够使DFS数据集在分钟级的时延内支持变更，也支持下游系统对这个数据集的增量处理。

Flink用户自定义连接器（Table API Connectors）学习总结

主要分享大数据相关的知识，如Spark、Hudi

05-24

2129

结合官网文档和自定义实现一个，来学习总结Flink用户自定义连接器（Table API Connectors）。实心箭头展示了在转换过程中对象如何从一个阶段到下一个阶段转换为其他对象。需要实现 org.apache.flink.table.factories.DynamicTableSourceFactory 接口完成一个工厂类，来生产 DynamicTableSource 类。. . .

Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka 集成

zhangs_123的博客

08-09

3238

Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka

Flink CDC使用Java DataStream API写入Hudi，实时同步业务库

u014519384的博客

07-07

2870

需要源码或者进Flink微信交流群的请+V ：zoomake1024在上一篇文章介绍了使用Flink SQL消费Kafka实时入湖的方法，全程都是SQL实现的，但是当处理逻辑复杂时，SQL并不是那么灵活，此时通过编码的方式可以更好的驾驭整个框架。本篇介绍下，如何使用Java DataStream API以编码的方式，通过Flink CDC同步MySQL数据到Hudi，在整个过程中遇到了很多问题，会一并给出解决方案。主要是参考Hudi源码中的HoodieFlinkStreamer来实现的，首先说明POM文件.

Flink CDC 2.2.0同步Mysql数据到Hudi数据湖表实践

微信搜：import_bigdata，大数据领域硬核原创作者

10-08

1753

全网最全大数据面试提升手册！目录介绍Deserialization序列化和反序列化添加Flink CDC依赖3.1 sql-client3.2 Java/Scala API使用SQL方式同步Mysql数据到Hudi数据湖4.1 Mysql表结构和数据4.2 Flink开启checkpoint4.3 在Flink中创建Mysql的映射表4.4 在Flink中创建Hudi Sink的映射表4.5 流式...

基于Flink+Hudi构建企业亿级云上实时数据湖教程（PC、移动、小

02-24

随着互联网的发展，数据的不断膨胀，从刚开始的关系型数据库到非关系型数据库，再到大数据技术，技术的不断演进最终是随着数据膨胀而不断改变，最初的数据仓库能解决我们的问题，但是随着时代发展，企业已经不满足于数据仓库，希望有更强大的技术来支撑数据的存储，包括结构化，非结构化的数据等，希望能够积累企业的数据，从中挖掘出更大的价值。基于这个背景，数据湖的技术应运而生。本课程基于真实的企业数据湖案例进行讲解，结合业务实现数据湖平台，让大家在实践中理解和掌握数据湖技术，未来数据湖的需求也会不断加大，希望同学们抓住这个机遇。项目中将以热门的互联网电商业务场景为案例讲解，具体分析指标包含：流量分析，订单分析，用户行为分析，营销分析，广告分析等，能承载海量数据的实时分析，数据分析涵盖全端（PC、移动、小程序）应用。Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。Hudi的出现解决了现有hadoop体系的几个问题：1、HDFS的可伸缩性限制 2、需要在Hadoop中更快地呈现数据 3、没有直接支持对现有数据的更新和删除 4、快速的ETL和建模 5、要检索所有更新的记录，无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新，Hudi都允许用户使用最后一个检查点时间戳，此过程不用执行扫描整个源表的查询。本课程包含的技术：开发工具为：IDEA、WebStorm Flink1.9.0、HudiClickHouseHadoop2.7.5 Hbase2.2.6Kafka2.1.0 Hive2.2.0HDFS、MapReduceSpark、ZookeeperBinlog、Canal、MySQLSpringBoot2.0.2.RELEASE SpringCloud Finchley.RELEASEVue.js、Nodejs、HighchartsLinux Shell编程课程亮点： 1.与企业接轨、真实工业界产品 2.ClickHouse高性能列式存储数据库 3.大数据热门技术Flink4.Flink join 实战 5.Hudi数据湖技术6.集成指标明细查询 7.主流微服务后端系统 8.数据库实时同步解决方案 9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS 10.集成SpringCloud实现统一整合方案 11.互联网大数据企业热门技术栈 12.支持海量数据的实时分析 13.支持全端实时数据分析 14.全程代码实操，提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授，代码在老师的指导下企业可以复用，提供企业解决方案。版权归作者所有，盗版将进行法律维权。

Hudi（17）：Hudi集成Flink之写入方式

yang_shibiao的博客

02-04

2234

注意：如果要再次生成测试数据，则需要修改meta.txt将自增id中的1改为比10000大的数，不然会出现主键冲突情况。步骤一：创建MySQL表（使用flink-sql创建MySQL源的sink表）步骤二：创建Kafka表（使用flink-sql创建MySQL源的sink表）步骤一：创建kafka源表（使用flink-sql创建以kafka为源端的表）步骤二：创建hudi目标表（使用flink-sql创建以hudi为目标端的表）步骤三：将kafka数据写入到hudi中（flink-sql内部操作）

FusionInsight MRS Flink DataStream API读写Hudi实践

华为云官方博客

11-14

2261

目前Hudi只支持FlinkSQL进行数据读写，但是在实际项目开发中一些客户存在使用Flink DataStream API读写Hudi的诉求。1.HoodiePipeline.java 将Hudi内核读写接口进行封装，提供Hudi DataStream API。1）HoodiePipeline.java ，该类将Hudi内核读写接口进行封装，提供Hudi DataStream API。2）WriteIntoHudi.java ，该类使用 DataStream API将数据写入Hudi。

Flink 版本数据湖(hudi)实时数仓---flinkcdc hudi kafak hive

wudonglianga的专栏

02-20

8090

1.架构图 2.实现实例 2.1 通过flink cdc 的两张表合并成一张视图，同时写入到数据湖(hudi) 中同时写入到kafka 中 2.2 实现思路 1.在flinksql 中创建flink cdc 表 2.创建视图(用两张表关联后需要的列的结果显示为一张速度) 3.创建输出表，关联Hudi表，并且自动同步到Hive表 4.查询视图数据，插入到输出表 -- flink 后台实时执行 2.3pom 文件需要的类 <?xml version="1.0" encoding="UTF

Hudi-集成Flink(Flink操作hudi表)

qq_38304392的博客

03-08

1789

一、安装部署Flink 1.12 Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。 1.准备tar包 flink-1.13.1-bin-scala_2.12.tgz 2.解压 tar -zxvf flink-1.13.1-bin-scala_2.12.tgz 3.添...

Apache Hudi 0.8.0 版本发布，Flink 集成有重大提升以及支持并行写

过往记忆大数据

04-15

923

4月初，Apache Hudi 发布了 0.8 版本，这个版本供解决了 97 个 ISSUES，下面简单介绍一下这个版本的迁移以及重要特性。迁移指南•如果从 0.5.3 以下版本迁移，请检...