自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(320)
  • 收藏
  • 关注

原创 60、Flink CDC 入门介绍及Streaming ELT示例(同步Mysql数据库数据到Elasticsearch)-完整版

本文介绍的CDC是基于2.4版本,当前版本已经发布至3.0,本Flink 专栏介绍是基于Flink 1.17版本,CDC 2.4版本支持到1.17版本。Apache Flink®的CDC连接器是用于Apache Flnk®的一组源连接器,使用更改数据捕获(CDC)接收来自不同数据库的更改。Apache Flink®的CDC连接器将Debezium集成为捕获数据更改的引擎。因此,它可以充分利用Debezium的能力。了解更多关于Debezium的信息。

2024-01-29 10:00:00 18769 4

原创 60、Flink CDC 入门介绍及Streaming ELT示例(同步Mysql数据库数据到Elasticsearch)-Streaming ELT介绍及示例(2)

CDC流式ELT框架是一个流数据集成框架,旨在为用户提供更强大的API。它允许用户通过自定义的Flink操作符和作业提交工具来配置他们的数据同步逻辑。该框架优先优化任务提交过程,并提供增强的功能,如整个数据库同步、分片和模式更改同步。✅端到端数据集成框架✅ API,用于数据集成用户轻松构建作业✅ 源/接收器中的多表支持✅ 同步整个数据库✅ 模式进化能力。

2024-01-27 16:00:00 18493 2

原创 60、Flink CDC 入门介绍及Streaming ELT示例(同步Mysql数据库数据到Elasticsearch)-CDC Connector介绍及示例 (1)

本文介绍的CDC是基于2.4版本,当前版本已经发布至3.0,本Flink 专栏介绍是基于Flink 1.17版本,CDC 2.4版本支持到1.17版本。Apache Flink®的CDC连接器是用于Apache Flnk®的一组源连接器,使用更改数据捕获(CDC)接收来自不同数据库的更改。Apache Flink®的CDC连接器将Debezium集成为捕获数据更改的引擎。因此,它可以充分利用Debezium的能力。了解更多关于Debezium的信息。

2024-01-27 10:30:00 17868

原创 37、Flink 的CDC 格式:debezium部署以及mysql示例(完整版)

Debezium是一个 CDC(Changelog Data Capture,变更数据捕获)的工具,可以把来自 MySQL、PostgreSQL、Oracle、Microsoft SQL Server 和许多其他数据库的更改实时流式传输到 Kafka 中。Debezium 为变更日志提供了统一的格式结构,并支持使用 JSON 和 Apache Avro 序列化消息。

2024-01-26 14:15:00 19340

原创 37、Flink 的CDC 格式:debezium部署以及mysql示例(2)-Flink 与Debezium 实践

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-26 09:45:00 18064

原创 37、Flink 的CDC 格式:debezium部署以及mysql示例(1)-debezium的部署与示例

Debezium是一个 CDC(Changelog Data Capture,变更数据捕获)的工具,可以把来自 MySQL、PostgreSQL、Oracle、Microsoft SQL Server 和许多其他数据库的更改实时流式传输到 Kafka 中。Debezium 为变更日志提供了统一的格式结构,并支持使用 JSON 和 Apache Avro 序列化消息。

2024-01-25 14:51:05 18718

原创 39、Flink 的CDC 格式:maxwell部署以及示例

Maxwell是一个CDC(Changelog Data Capture)工具,可以将MySQL中的数据变化实时流式传输到Kafka、Kinesis和其他流式连接器中。Maxwell为变更日志提供了统一的格式模式,并支持使用JSON序列化消息。Flink支持将Maxwell JSON消息解释为INSERT/UPDATE/DELETE Flink SQL系统中的消息。在许多情况下,这对于利用此功能非常有用,例如将增量数据从数据库同步到其他系统审核日志数据库上的实时物化视图。

2024-01-25 09:45:00 17974

原创 59、Flink CEP - Flink的复杂事件处理介绍及示例(完整版)

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-24 14:30:00 18724

原创 59、Flink CEP - Flink的复杂事件处理介绍及示例(4)- 延迟数据处理和三个实际应用示例

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-24 09:45:00 18210

原创 59、Flink CEP - Flink的复杂事件处理介绍及示例(3)- 模式选取及超时处理

Flink 系列文章一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口

2024-01-23 14:30:00 18315

原创 59、Flink CEP - Flink的复杂事件处理介绍及示例(2)- 模式API

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-23 09:45:00 18178

原创 38、Flink 的CDC 格式:canal部署以及示例

Canal是一个 CDC(ChangeLog Data Capture,变更日志数据捕获)工具,可以实时地将 MySQL 变更传输到其他系统。Canal 为变更日志提供了统一的数据格式,并支持使用 JSON 或protobuf序列化消息(Canal 默认使用 protobuf)。Flink 支持将 Canal 的 JSON 消息解析为 INSERT / UPDATE / DELETE 消息到 Flink SQL 系统中。在很多情况下,利用这个特性非常的有用。例如将增量数据从数据库同步到其他系统。

2024-01-22 14:27:44 17887

原创 59、Flink CEP - Flink的复杂事件处理介绍及示例(1)-入门

Flink CEP(Complex event processing)是在Flink上层实现的复杂事件处理库。它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。实时处理中的一个关键问题是检测数据流中的事件模式。复杂事件处理(CEP)解决了将连续传入的事件与模式进行匹配的问题。匹配的结果通常是从输入事件派生的复杂事件。与对存储的数据执行查询的传统DBMS不同,CEP对存储的查询执行数据。所有与查询无关的数据都可以立即丢弃。

2024-01-22 14:15:00 18363

原创 【flink番外篇】22、通过 Table API 和 SQL Client 操作 Catalog 示例

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-20 14:45:00 19363

原创 【flink番外篇】21、Flink 通过SQL client 和 table api注册catalog示例

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-20 10:30:00 18708

原创 【flink番外篇】20、DataStream 和 Table集成-Changelog Streams变化流示例

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-19 14:15:00 18769

原创 【flink番外篇】15、Flink维表实战之6种实现方式-完整版(2)

Flink 系列文章一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口

2024-01-19 09:45:00 18592

原创 【flink番外篇】19、Datastream数据类型到Table schema映射示例

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-18 14:00:00 18812

原创 【flink番外篇】15、Flink维表实战之6种实现方式-完整版(1)

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-18 09:45:00 18790

原创 【flink番外篇】18、通过数据管道将table source加入datastream示例

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-17 14:30:00 20622

原创 【flink番外篇】17、DataStream 和 Table集成-仅插入流Insert-Only示例

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-17 09:45:00 18579

原创 【flink番外篇】15、Flink维表实战之6种实现方式-通过Temporal table实现维表数据join

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-16 14:45:00 20092

原创 【flink番外篇】15、Flink维表实战之6种实现方式-通过广播将维表数据传递到下游

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-16 09:45:00 18859

原创 【flink番外篇】15、Flink维表实战之6种实现方式-维表来源于第三方数据源

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-15 14:45:00 18845

原创 【flink番外篇】15、Flink维表实战之6种实现方式-初始化的静态数据

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-15 09:45:00 18748

原创 【flink番外篇】16、DataStream 和 Table 相互转换示例

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-13 15:30:00 18800

原创 【flink番外篇】13、Broadcast State 模式示例(完整版)

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-13 10:30:00 18696

原创 【flink番外篇】13、Broadcast State 模式示例-广播维表(2)

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-12 14:30:00 18643

原创 【flink番外篇】13、Broadcast State 模式示例-简单模式匹配(1)

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-12 09:45:00 18708

原创 58、Flink维表的实战-6种实现方式维表的join

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-11 14:15:00 19773

原创 【flink番外篇】12、ParameterTool使用示例

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-11 09:45:00 18739

原创 【flink番外篇】11、Flink 并行度设置

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-10 14:15:00 19064

原创 【flink番外篇】10、对有状态或及时 UDF 和自定义算子进行单元测试

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-10 09:45:00 18588

原创 56、Flink 的Data Source 原理介绍

一些比较基本的 Source 和 Sink 已经内置在 Flink 里。预定义 data sources 支持从文件、目录、socket,以及 collections 和 iterators 中读取数据。预定义 data sinks 支持把数据写入文件、标准输出(stdout)、标准错误输出(stderr)和 socket。

2024-01-09 14:00:00 19316

原创 【flink番外篇】14、Flink异步I/O访问外部数据示例

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-09 09:25:18 18741

原创 55、Flink之用于外部数据访问的异步 I/O介绍及示例

在大多数情况下,I/O访问是一个耗时的过程,这使得单个operator的TPS比内存计算低得多,尤其是对于流式作业,当低延迟是用户的一大担忧时。启动多个线程可能是处理这个问题的一种选择,但缺点是显而易见的:最终用户的编程模型可能会变得更加复杂,因为他们必须在运算符中实现线程模型。此外,他们必须注意与checkpointing的协调。AsyncFunction: 异步I/O将在AsyncFunction中触发。

2024-01-08 13:32:28 18972

原创 【flink番外篇】9、Flink Table API 支持的操作示例(2)-完整版

一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、Flik

2024-01-08 09:31:01 17431

原创 53、Flink 的Broadcast State 模式介绍及示例

https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/fault-tolerance/broadcast_state/一、Flink 专栏Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用

2024-01-06 15:30:00 20279

原创 52、Flink的应用程序参数处理-ParameterTool介绍及使用示例

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和SQL基础系列本部分介绍Flink Table Api和SQL的基本用法,比如Table API和SQL创建库、表用法、查询、窗口函数、catalog等等内容。

2024-01-06 10:30:13 19416

原创 51、Flink的管理执行(执行配置、程序打包和并行执行)的介绍及示例

调用打包后程序的完整流程包括两步:搜索 JAR 文件 manifest 中的 main-class 或 program-class 属性。如果两个属性同时存在,program-class 属性会优先于 main-class 属性。对于 JAR manifest 中两个属性都不存在的情况,命令行和 web 界面支持手动传入入口点类名参数。系统接着调用该类的 main 方法。

2024-01-05 13:35:38 19713

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化 网址:https://blog.csdn.net/chenwewi520feng/article/details/130457270 本文介绍在hadoop集群中,不适用默认的参数情况下,yarn的cpu和内容配置。 本文依赖是hadoop集群正常运行。 本文分为3个部分,即概述、cpu和内存配置。

2023-05-29

22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件

22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件 网址:https://blog.csdn.net/chenwewi520feng/article/details/130456088 本文的前提是hadoop环境正常。 本文最好和MapReduce操作常见的文件文章一起阅读,因为写文件与压缩往往是结合在一起的。 相关压缩算法介绍参考文章:HDFS文件类型与压缩算法介绍。 本文介绍写文件时使用的压缩算法,包括:Gzip压缩、Snappy压缩和Lzo压缩。 本文分为3部分,即Gzip压缩文件的写与读、Snappy压缩文件的写与读和Lzo压缩文件的写与读。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130456088

2023-05-29

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件 网址:https://blog.csdn.net/chenwewi520feng/article/details/130455817 本文介绍使用MapReduce读写文件,包括:读写SequenceFile、MapFile、ORCFile和ParquetFile文件。 本文前提:hadoop环境可正常使用。pom.xml文件内容参考本专栏中的其他文章内容。 本文分为四部分,即MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件。 下篇文章介绍压缩算法的使用。 关于本文的前置内容介绍,参考链接hdfs的文件系统与压缩算法 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/13

2023-05-29

20、MapReduce 工作流介绍

20、MapReduce 工作流介绍 网址:https://blog.csdn.net/chenwewi520feng/article/details/130455696 本文介绍MapReduce 工作流。 本文前提:hadoop环境可用。

2023-05-29

19、Join操作map side join 和 reduce side join

19、Join操作map side join 和 reduce side join 网址:https://blog.csdn.net/chenwewi520feng/article/details/130455477 本文介绍mapreduce的join操作。 本文前提是hadoop可以正常使用。 本文分为3个部分介绍,即join的介绍、map side join和reduce side join。

2023-05-29

18、MapReduce的计数器与通过MapReduce读取-写入数据库示例

18、MapReduce的计数器与通过MapReduce读取_写入数据库示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130454774 本文介绍MapReduce的计数器使用以及自定义计数器、通过MapReduce读取与写入数据库示例。 本文的前提依赖是hadoop可正常使用、mysql数据库中的表可用且有数据。 本文分为2个部分,即计数器与读写mysql数据库。

2023-05-29

17、MapReduce的分区Partition介绍

17、MapReduce的分区Partition介绍 网址:https://blog.csdn.net/chenwewi520feng/article/details/130454574 本文介绍MR的分区Partition。 本文分为2个部分,即介绍与示例。 前提依赖:hadoop环境可正常使用。

2023-05-29

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN 网址:https://blog.csdn.net/chenwewi520feng/article/details/130454036 本文介绍MapReduce常见的基本用法。 前提是hadoop环境可正常运行。 本文分为五个部分,即介绍自定义序列化、排序、分区、分组和topN。

2023-05-29

15、MapReduce介绍及wordcount

15、MapReduce介绍及wordcount 网址:https://blog.csdn.net/chenwewi520feng/article/details/130431900 本文主要介绍mapreduce的编程模型及wordcount实现、运行环境介绍。 前提依赖:hadoop环境可用,且本地的编码环境已具备。若无,则建议参考本专栏的相关文章。 本文分为3个部分,即mapreduce编程模型介绍和wordcount实现、运行环境介绍。

2023-05-29

14、HDFS 透明加密KMS

14、HDFS 透明加密KMS 网址:https://blog.csdn.net/chenwewi520feng/article/details/130429278 本文旨在简单介绍hdfs的透明加密作用及其使用。 前提依赖:hadoop环境部署好且可用。部署文章可参考本专栏相关文章。 本文分为2部分,即介绍和部署及使用。

2023-05-29

13、HDFS Snapshot快照

13、HDFS Snapshot快照 网址:https://blog.csdn.net/chenwewi520feng/article/details/130362505 快照(Snapshot)是数据存储的某一时刻的状态记录;与备份不同,备份(Backup)则是数据存储的某一个时刻的副本。 HDFS Snapshot快照是整个文件系统或某个目录在某个时刻的镜像。 该镜像并不会随着源目录的改变而进行动态的更新。

2023-05-29

12、HDFS Trash垃圾桶回收介绍与示例

12、HDFS Trash垃圾桶回收介绍与示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130359929 本文主要介绍HDFS Trash垃圾桶回收。 前提依赖:hadoop可以正常使用。 本文分为三部分,即介绍、配置以及验证。

2023-05-29

11、hadoop环境下的Sequence File的读写与合并

11、hadoop环境下的Sequence File的读写与合并 网址:https://blog.csdn.net/chenwewi520feng/article/details/130359237 本文介绍hadoop环境下的Sequence File的读写与合并。 本文依赖:hadoop环境可用,本示例是以hadoop的HA环境作为示例的,如果不是HA环境,参考本专栏的hdfs文件的常规操作。

2023-05-29

10、HDFS小文件解决方案-Archive

10、HDFS小文件解决方案--Archive 网址:https://blog.csdn.net/chenwewi520feng/article/details/130348069 本文介绍hdfs在使用过程中产生小文件的处理方式。 本文使用Archive来合并hdfs的小文件。 本文分为2个部分,即Archive介绍及使用示例。 本文依赖前提:hadoop集群可以正常使用,且相关的文件提前已经准备好。

2023-05-29

9、hadoop高可用HA集群部署及三种方式验证

9、hadoop高可用HA集群部署及三种方式验证 网址:https://blog.csdn.net/chenwewi520feng/article/details/130344998 本文介绍hadoop HA环境部署。本文分为三部分,即HA集群规划、HA集群部署和HA集群验证 前提依赖: 1、前提是zookeeper已经部署好,其服务器部署在server1、server2、server3上,且能正常运行 2、ssh免登录已完成配置,且完成NameNode和NameNode的相互免密,比如server1和server2是两个NameNode,其相互已经免密。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130344998

2023-05-29

8、HDFS内存存储策略支持和“冷热温”存储

8、HDFS内存存储策略支持和“冷热温”存储 网址:https://blog.csdn.net/chenwewi520feng/article/details/130338388 本文介绍HDFS的存储策略以及“冷热温”存储的配置。 本文的前提依赖是hadoop集群环境可以正常的运行。

2023-05-29

7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法

7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法 网址:https://blog.csdn.net/chenwewi520feng/article/details/130337213 本文主要介绍大数据环境中常见的文件存储格式、压缩算法。 本文分为2个部分,即文件存储格式(Text File、Sequence File、Avro File、RCFile、ORC File、Parquet File、Arrow)和压缩算法(snappy、lz4、gzip、lzo)。

2023-05-29

6、HDFS的HttpFS-代理服务

6、HDFS的HttpFS-代理服务 网址:https://blog.csdn.net/chenwewi520feng/article/details/130336221 本文介绍HttpFS的使用。 可以与前一篇文章一起阅读。HDFS API的RESTful风格–WebHDFS 本文分为四部分,即介绍、配置、验证与和WebHDFS的比较。 本文阅读前提是已经部署好hadoop环境,具体部署参考hadoop3.1.4简单介绍及部署、简单验证

2023-05-29

5、HDFS API的RESTful风格-WebHDFS

5、HDFS API的RESTful风格--WebHDFS 网址:https://blog.csdn.net/chenwewi520feng/article/details/130335776 本文简单介绍WebHDFS和使用。

2023-05-29

4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置)

4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130334620 本文编写了java对HDFS的常见操作,并且均测试通过。 其功能包含构造conf、设置系统环境变量、创建目录、判断文件是否存在、获取文件/目录的大小等

2023-05-29

3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件

3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java 网址:https://blog.csdn.net/chenwewi520feng/article/details/130326202 本示例介绍java通过api操作hdfs。 主要包含HDFS的读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等。 本文分为2个部分,即环境准备和示例。

2023-05-29

2、HDFS操作 - shell客户端

2、HDFS操作 - shell客户端 网址:https://blog.csdn.net/chenwewi520feng/article/details/130325405 本文介绍hdfs的shell操作,本文的前提是hdfs的功能正常运行。 本文分为2个部分介绍,即语法格式与具体示例。

2023-05-29

1、hadoop3.1.4简单介绍及部署、简单验证

1、hadoop3.1.4简单介绍及部署、简单验证 网址:https://editor.csdn.net/md/?articleId=130322812 本文介绍hadoop的发展过程、3.1.4的特性、部署及简单验证。 本文前提依赖:免密登录设置、jdk已经安装、zookeeper部署完成且正常运行。具体参见相关文章,具体在zookeeper专栏、环境配置。 本文分为三个部分介绍,即hadoop发展史、hadoop3.1.4部署及验证。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130322812

2023-05-29

9、NIFI综合应用场景-通过NIFI配置kafka的数据同步

9、NIFI综合应用场景-通过NIFI配置kafka的数据同步 网址:https://blog.csdn.net/chenwewi520feng/article/details/130622776 本文旨在介绍nifi与kafka的交互过程,即生产数据到kafka中,然后通过nifi消费kafka中的数据。 本文前提是nifi、kafka环境正常。 本文分为三个部分,即处理器说明、生产数据到kafka中以及消费kafka中的数据。

2023-05-29

8、NIFI综合应用场景-NiFi监控MySQL binlog进行实时同步到hive

8、NIFI综合应用场景-NiFi监控MySQL binlog进行实时同步到hive 网址:https://blog.csdn.net/chenwewi520feng/article/details/130620988 本文旨在介绍通过实时监控mysql的binlog实现数据的实时同步至hive中。但由于hive执行insert语句的效率较低,一般不会这么使用。 本文的前提是hive、mysql、nifi环境可正常使用。 本文分为四部分,即实现流程、处理器说明、操作与验证。

2023-05-29

7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中

7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中 网址:https://blog.csdn.net/chenwewi520feng/article/details/130620392 本文是在6、NIFI综合应用场景-离线同步Mysql数据到HDFS中基础上完成的,仅仅是将上文中的json数据转成txt文件。本文仅列出了和该示例增加的部分,其他的则没有变化。 本文前置条件是mysql、hadoop、nifi、hive和hue环境运行正常。如果没有hive或hue环境,则可通过查看hadoop的文件数据即可。 本分分为四部分,即实现流程、处理器说明、操作和验证。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130620392

2023-05-29

6、NIFI应用场景-离线同步Mysql数据到HDFS中

6、NIFI应用场景-离线同步Mysql数据到HDFS中 网址:https://blog.csdn.net/chenwewi520feng/article/details/130619480 本文旨在说明将mysql数据同步至HDFS中,并进行验证。阅读本文前最好是阅读本系列的前面文章关于模板中的介绍。 本文的前提依赖是mysql环境有数据、hadoop、nifi、hive、hue环境是搭建好的。如果hue环境没有,则在hdfs中进行验证。 本文分为四部分,即实现流程、使用的处理器介绍、在nifi中操作和验证结果。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130619480

2023-05-29

5、NiFi FileFlow示例和NIFI模板示例

5、NiFi FileFlow示例和NIFI模板示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130614514 本文旨在介绍FlowFile属性和内容、模板和简单介绍一个应用示例。其中模板将是后续文章的主要使用内容。 本分前提是nifi环境正常使用。 本分分为三个部分,即FlowFile生成器示例、模板以及FlowFile的内容与属性。

2023-05-29

4、NIFI集群部署及验证

4、NIFI集群部署及验证 网址:https://blog.csdn.net/chenwewi520feng/article/details/130613725 本分主要介绍NIFI的两种集群部署方式以及节点的日常管理和简单介绍state管理。 本文前提依赖是zookeeper环境具备。 本分分为三个部分,即集群部署、节点管理和state管理。

2023-05-29

3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看

3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看 网址:https://blog.csdn.net/chenwewi520feng/article/details/130605012 本文主要介绍了NIFI的常见处理器,并按照一定的类别进行分类和介绍;同时介绍了处理器的常见属性;NIFI的模板简单介绍,接下来文章中有具体的关于模板的使用示例;以及NIFI的运行情况的信息查看。 本分主要分为四部分,即处理器类别、处理器属性、模板和运行情况信息查看。

2023-05-29

2、NIFI应用示例-GetFile和PutFile应用

2、NIFI应用示例-GetFile和PutFile应用 网址:https://blog.csdn.net/chenwewi520feng/article/details/130596577 本文前提是NIFI环境已经部署好。 本示例为NIFI的第一个应用示例,旨在说明Nifi的工作过程。 本文通过GetFile读取一个文件,然后将读取的内容通过PutFile写入到一个文件中。 本文分为四个部分,即添加GetFile处理器、添加PutFile处理器、添加GetFile和PutFile的连接器以及最终的验证。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130596577

2023-05-29

1、nifi-1.9.2介绍、单机部署及简单验证

1、nifi-1.9.2介绍、单机部署及简单验证 网址:https://blog.csdn.net/chenwewi520feng/article/details/130595158 本文主要介绍了NIFI是什麽、单机的部署、简单验证(以getFile为例)和相关组件。 本文的前提是安装好像对应的jdk即可。 本文分为三部分,即简单介绍、单机部署和组件介绍。

2023-05-29

5、kafka监控工具Kafka-Eagle介绍及使用

5、kafka监控工具Kafka-Eagle介绍及使用 网址:https://blog.csdn.net/chenwewi520feng/article/details/130581571 本文主要介绍了kafka监控工具Kafka-Eagle的使用。 本文依赖:kafka、zookeeper部署完成。 本分分为三个部分介绍,即Kafka-Eagle介绍、部署和验证。

2023-05-29

4、kafka分区、副本介绍及示例、高级API与低级API

4、kafka分区、副本介绍及示例、高级API与低级API 网址:https://blog.csdn.net/chenwewi520feng/article/details/130580533 本文主要介绍分区与副本机制、高级api使用示例手动消费分区数据等。 本文前提是kafka环境可用。 本文分为2个部分,即分区与副本机制、高级API与低级API。

2023-05-29

3、kafka重要概念介紹及示例

3、kafka重要概念介紹及示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130577766 本文介绍了kafka相关重要的概念及使用示例。 本文前提是kafka环境可用。 本文分为五部分,即概念、幂等与事务、分区的leader和follower、消息可靠机制和限速机制。

2023-05-29

2、java调用kafka api

2、java调用kafka api 网址:https://blog.csdn.net/chenwewi520feng/article/details/130577664 本分介绍java调用kafka api。 本文前置条件是kafka环境搭建好。 本分五部分,即简单的写数据到kafka、从topic中消费数据、异步回调、读写kafka中复杂数据类型和读取历史数据。

2023-05-29

1、kafka(2.12-3.0.0)介绍、部署及验证、基准测试

1、kafka(2.12-3.0.0)介绍、部署及验证、基准测试 网址:https://blog.csdn.net/chenwewi520feng/article/details/130575377 本文主要介绍了kafka的作用、部署及验证、基本的shell操作和进行基准测试。 本文的前置依赖是zookeeper部署好、免密登录也设置完成。如果未完成,则可参考本人zookeeper专栏内容。 本文分为四个部分,即kafka简介、环境部署、基本shell操作和基准测试。

2023-05-29

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二)

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130465463 本文通过在hdfs中三种不同数据格式文件存储相同数量的数据,通过hive和impala两种客户端查询进行比较。 本文前提:熟悉hadoop、hive和impala、kafka、flink等,并且其环境都可正常使用。(在后续的专栏中都会将对应的内容补全,目前已经完成了zookeeper和hadoop的部分。) 本文分为五个部分,即结论、三种文件介绍、需求、实现步骤、实现和网上别人的结论与验证。 由于本文太长,导致阅读可能比较麻烦,故一篇文章分为两篇,第一篇是准备数据,第二篇是查询比较。本文是第二篇。 本文接1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一),阅读本文前需要先阅读第一篇。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.

2023-05-29

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一)

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130465139 本文通过在hdfs中三种不同数据格式文件存储相同数量的数据,通过hive和impala两种客户端查询进行比较。 本文前提:熟悉hadoop、hive和impala、kafka、flink等,并且其环境都可正常使用。(在后续的专栏中都会将对应的内容补全,目前已经完成了zookeeper和hadoop的部分。) 本文分为五个部分,即结论、三种文件介绍、需求、实现步骤、实现和网上别人的结论与验证。 由于本文太长,导致阅读可能比较麻烦,故一篇文章分为两篇,第一篇是准备数据,第二篇是查询比较。本文是第一篇。 本文接1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二),比较的具体数据在第二篇。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0

2023-05-29

5、zookeeper的java -Curator(服务注册与发现)

5、zookeeper的java -Curator(服务注册与发现) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130320669 本文介绍使用zookeeper的Curator类库实现服务的注册与发现。 该示例会涉及到本专栏下的其他文章,比如:4、zookeeper的java三种客户端介绍-Curator(crud、事务操作、监听、分布式计数器、分布式锁) 等文章,都是在该专栏下的。

2023-05-29

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除