flink
文章平均质量分 89
BigDataToAI
分享大数据经验
展开
-
Flink Standalone HA搭建指南
基本环境集群主机IPhost14710.1.0.147host14810.1.0.148host14910.1.0.149配置域名映射vim /etc/hosts10.1.0.147 host14710.1.0.148 host14810.1.0.149 host149下载Flink安装包,将其放到/data目录下,并解压mkdir /data && cd /datawget http://192.168.1.3:11180/d原创 2022-03-09 01:14:29 · 2365 阅读 · 0 评论 -
Flink与Spark读写parquet文件全解析
Parquet介绍Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件(如 CSV 或 TSV 文件)相比,Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。Parquet 使用记录粉碎和组装算法,该算法优于嵌套命名空间的简单展平。 Parquet 经过优化,可以批量处理复杂数据,并具有不同的方式来实现高效的原创 2022-01-26 09:46:37 · 3401 阅读 · 6 评论 -
使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖
总览在接下来的文章中,我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖,包括 Red Hat 的 Debezium、Apache Kafka、Kafka Connect、Apache Hive、Apache Spark、Apache Hudi 和 Hudi DeltaStreamer。 我们将使用完全托管的 AWS 服务来托管数据源、数据湖和开源工具。 这些服务包括 Amazon RDS、MKS、EKS、EMR 和 S3。工作流程如上面的架构图所示,这些是演示工作流.翻译 2022-01-26 01:43:52 · 1188 阅读 · 0 评论 -
Hudi源码分析之使用Flink Table/SQL实现Hudi Sources
在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的基础,我们再来理解Flink Table/SQL是如何实现Hudi的数据读取与写入就比较容易了。动态表是自定义sources/sinks的核心,通过查阅源码我们可以知道在flink-hudi子模块中,org.apache.hudi.table.HoodieTableFactory类同时实现了DynamicTableSource原创 2022-01-23 23:31:17 · 2773 阅读 · 0 评论 -
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库、键值对存储系统、消息队列)或者文件中。动态源和动态写可以从外部系统读写数据。在下面的描述中,动态源和动态写可以归结为connector。接下来我们来看看如何自定义connector。代码地址:https://git.lrting.top/xiaozhch5/flink-table-sql-connectors.git总览原创 2022-01-20 16:54:39 · 4483 阅读 · 8 评论 -
Flink 1.14将数据写入InfluxDB 2.1.1
InfluxDB作为时序数据库,在与时间相关的数据记录中,发挥着巨大的作用。下文以flink为例,通过参考Flink第三方扩展(https://github.com/apache/bahir-flink/tree/master/flink-connector-influxdb2).自定义source将数据写入influxDB 2.1.1中。在完成以下工作时,请确保您已经安装并配置了InfluxDB 2.1.1,如果您还未安装配置,可参考以下文章(https://lrting-top.blog.cs原创 2022-01-02 22:06:39 · 1802 阅读 · 0 评论 -
Pinterest使用DrSquirrel自动诊断工具快速解决Flink问题
摘要:本文为Flink Forward 2021,Fanshu Jiang & Lu Niu | Software Engineers, Stream Processing Platform Team在大会上做的分享。在 Pinterest,流数据处理支持广泛的实时用例。 近年来,由 Flink 提供支持的平台通过提供近乎实时的内容激活和指标报告,已被证明对业务具有巨大价值,并有可能在未来解锁更多用例。 然而,为了利用这种潜力,我们需要解决开发者速度的问题。从编写第一行代码到生产中的稳定数原创 2021-12-27 21:32:30 · 559 阅读 · 0 评论 -
Flink cdc自定义format格式数据源
总览变更数据捕获 (CDC) 已成为一种流行的模式,用于从数据库捕获已提交的变更并将这些变更传播给下游消费者,例如保持多个数据存储同步并避免常见的陷阱,例如双重写入。 能够轻松地将这些变更日志摄取和解释到 Table API/SQL 中一直是 Flink 社区的一个非常需要的功能,现在 Flink 1.11 可以实现。为了将 Table API/SQL 的范围扩展到 CDC 等用例,Flink 1.11 引入了具有变更日志模式的新表源和接收器接口(请参阅新的 TableSource 和 TableSin原创 2021-10-22 14:03:06 · 2155 阅读 · 0 评论 -
zeppelin高可用部署
这边所说的zeppelin高可用不是传统意义上的HA模式,而是利用统一的配置文件,在一个zeppelin server挂掉之后,在另一个zeppelin server从统一配置文件再恢复到原有作业模式。在集群中,同时仅存在一个zeppelin server服务。下面描述如何配置。环境准备服务器以及组件安装位置:服务器名称hadoophadoop1组件名称hdfs 3.2.1hdfs 3.2.1组件名称zeppelin 0.10.0zeppelin 0.10.0原创 2021-10-20 03:01:01 · 995 阅读 · 0 评论 -
Flink的类加载器
概览在运行 Flink 应用程序时,JVM 会随着时间的推移加载各种类。 这些类可以根据它们的来源分为三组:Java Classpath:这是Java的通用类路径,它包括JDK库,以及Flink /lib文件夹中的所有代码(Apache Flink的类和一些依赖)。Flink 插件组件:插件代码在 Flink 的 /plugins 文件夹下的文件夹中。 Flink 的插件机制会在启动时动态加载一次。动态用户代码:这些是动态提交的作业的 JAR 文件中包含的所有类(通过 REST、CLI、翻译 2021-10-16 16:10:09 · 1389 阅读 · 0 评论 -
Zeppelin结合Flink查询hudi数据
关于ZeppelinZeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 Apache Spark、Apache Flink、Python、R、JDBC、Markdown 和 Shell 等多种解释器。简单来说就是,让你通过Web原创 2021-10-10 00:50:48 · 668 阅读 · 0 评论 -
使用FLINK SQL从savepoint恢复hudi作业 (flink 1.13)
Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下:在上述第二步中,我们通过手工停止kafka→hudi的Flink任务,然后在Flink SQL Client从savepoint进行恢复。下述工作类似于Flink SQL Client实战CDC数据入湖只是本文的flink版本为1.13.1,可参考其完成本文验证原创 2021-10-08 15:25:19 · 2086 阅读 · 0 评论