自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

alanchanchn的专栏

对相关技术进行系统化介绍,并辅以实际可运行demo,让读者能轻松实现所思所见所得,降低学习新技术门槛。

  • 博客(422)
  • 收藏
  • 关注

原创 Flink原理与实战(java版)#第10章 Flink的 CEP(第一节Flink CEP介绍和第二节模式API(一))

通过入门示例让读者感受一下CEP,接下来就介绍了其编程模型。

2025-12-22 14:45:00 28

原创 Flink原理与实战(java版)#第9章 Flink的监控与优化(整章)

分为2个部分介绍了Flink的监控与优化,即Flink提供了哪些指标以及如何监控和Flink优化的方向有哪些及怎么优化。

2025-12-22 10:15:00 219

原创 Flink原理与实战(java版)#第9章 Flink的监控与优化(第七节流式聚合调优及第八节本章小结)

介绍了Flink在聚合时的优化,主要是从聚合时的状态查询、数据倾斜以及distinct的拆分几个方面进行说明。Flink在进行聚合时需要读取状态信息(累加器)、修改和写回累加器,该操作会增加状态后端的开销,启用MiniBatch聚合可以将聚合算子存储在缓冲区中,当然该种方式可能会有一定的延迟发生,需要进行吞吐量与延迟做好平衡。本地聚合则是解决数据倾斜的情况,启动本地聚合可以实现先上游本地聚合再下游全局聚合,其依赖与已经启用来MiniBatch聚合。拆分distinct则是通过两级聚合完成distinct

2025-12-21 15:30:00 77

原创 Flink原理与实战(java版)#第9章 Flink的监控与优化(第六节网络缓冲调优)

从网络方面给出了如何进行优化,比如网络的缓冲消胀机制、网络缓冲的生命周期和缓冲区的数量等知识介绍的同时如何进行优化。网络缓冲消胀机制如何配置和可能获得结果以及使用限制场景;网络缓冲的生命周期则是从输入和输出网络两个方面进行介绍;缓冲区的数量则是介绍了Flink本身默认值是多少,其默认值一般来说不需要修改就足以应对一般的业务场景。

2025-12-21 10:15:00 87

原创 Flink原理与实战(java版)#第9章 Flink的监控与优化(第三节监控反压、第四节内存调优及第五节大状态与检查点调优)

介绍了Flink作为一个实时计算框架不可避免会遇到的事情-反压,其如何进行监控、如何界定是否出现了反压等相关内容。并通过一个示例介绍了Flink是如何来标明反压状态的。

2025-12-19 15:30:00 179

原创 Flink原理与实战(java版)#第9章 Flink的监控与优化(第二节示例:Flink 的指标报告)

介绍了Flink作为一个实时计算框架不可避免会遇到的事情-反压,其如何进行监控、如何界定是否出现了反压等相关内容。并通过一个示例介绍了Flink是如何来标明反压状态的。

2025-12-19 13:45:00 182

原创 Flink原理与实战(java版)#第9章 Flink的监控与优化(第一节Flink 指标体系)

介绍了Flink的指标体系,其中包含指标的注册、范围、报告生成、系统指标有哪些、端到端的延迟跟踪、状态访问延迟跟踪和指标体系通过Restful API 和Dashboard的集成内容。第二节则是第一节的延续,是针对将Flink的指标与外部系统的集成,介绍了如何进行集成,并介绍了哪些软件可以和Flink直接进行集成,并以与JMX集成作为示例进行说明,目前比较流行的可能是与Prometheus的集成,至于如何应用则以实际的应用环境为准。

2025-12-19 10:15:00 185

原创 Flink原理与实战(java版)#第8章 Flink的 Connectors(整章)

分别从DataStream 和 Table API & SQL两个方面介绍外部连接器的支持与使用情况,为了更加贴近我们实际生产应用和系统应用,不管是DataStream的外部连接器还是Table API & SQL 的外部连接器本书都是选取的Kafka作为重点介绍的内容。当然结合当前行业的市场存量情况,Flink与Hadoop、Hive的结合应用也较为常见,本章以HDFS为应用基础介绍了文件系统。

2025-12-18 15:30:00 372

原创 Flink原理与实战(java版)#第8章 Flink的 Connectors(第二节Table API & SQL连接器之Kafka(三)及第三节本章小结)

第二节介绍了Table API & SQL 的Connector外部连接器支持情况、支持的数据格式以及外部连接器kafka内容。详细地讲解了如何在Flink SQL Client创建Kafka表、有哪些元数据可以使用、连接器有哪些参数可以设置,当然更深入的介绍了kafka作为Flink Table API & SQL 的外部连接器有哪些特性等内容。在介绍的同时,便于读者进行理解和应用,文章内辅以大量可直接运行的示例。但针对常用的数据格式(csv、json、parquet和orc等)则没有介绍,同时针对外部连

2025-12-18 13:45:00 304

原创 Flink原理与实战(java版)#第8章 Flink的 Connectors(第二节Table API & SQL连接器之Kafka(二))

第二节介绍了Table API & SQL 的Connector外部连接器支持情况、支持的数据格式以及外部连接器kafka内容。详细地讲解了如何在Flink SQL Client创建Kafka表、有哪些元数据可以使用、连接器有哪些参数可以设置,当然更深入的介绍了kafka作为Flink Table API & SQL 的外部连接器有哪些特性等内容。在介绍的同时,便于读者进行理解和应用,文章内辅以大量可直接运行的示例。但针对常用的数据格式(csv、json、parquet和orc等)则没有介绍,同时针对外部连

2025-12-18 10:15:00 237

原创 Flink原理与实战(java版)#第8章 Flink的 Connectors(第二节Table API & SQL连接器之Kafka(一))

第二节介绍了Table API & SQL 的Connector外部连接器支持情况、支持的数据格式以及外部连接器kafka内容。详细地讲解了如何在Flink SQL Client创建Kafka表、有哪些元数据可以使用、连接器有哪些参数可以设置,当然更深入的介绍了kafka作为Flink Table API & SQL 的外部连接器有哪些特性等内容。在介绍的同时,便于读者进行理解和应用,文章内辅以大量可直接运行的示例。但针对常用的数据格式(csv、json、parquet和orc等)则没有介绍,同时针对外部连

2025-12-17 14:45:00 276

原创 Flink原理与实战(java版)#第8章 Flink的 Connectors(第一节DataStream 连接器之Kafka(二))

第一节介绍了DataStream的Connector的内容。该节介绍了Flink外部连接器容错保证和重要的一个外部连接器kafka。Flink 的外部连接器kafka在使用的时候会有哪些困惑?本小节从怎么引入、kafka作为source和sink的使用方式以及示例进行说明、kafka作为外部连接器的版本变化、kafka在运行过程中的监控、安全、版本升级等,甚至包括使用过程中出现了异常如何解决等。

2025-12-17 10:15:00 291

原创 Flink原理与实战(java版)#第8章 Flink的 Connectors(第一节DataStream 连接器之Kafka(一))

第一节介绍了DataStream的Connector的内容。该节介绍了Flink外部连接器容错保证和重要的一个外部连接器kafka。Flink 的外部连接器kafka在使用的时候会有哪些困惑?本小节从怎么引入、kafka作为source和sink的使用方式以及示例进行说明、kafka作为外部连接器的版本变化、kafka在运行过程中的监控、安全、版本升级等,甚至包括使用过程中出现了异常如何解决等。

2025-12-16 14:45:00 325

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(整章)

本章简略的介绍了Flink Table API & SQL 的内容,其中内容是Flink的核心功能之一,与DataStream API、Connector连接器是非常核心功能,其中Table API & SQL 较其他两者更为重要。其中非常重要的时区、SQL Cli、SQL Gateway、模块以及Table API等相关内容本书没有介绍或介绍极其简略,同时也缺乏相对的示例,特别是Table API与DataStream API的集成相关内容。

2025-12-16 10:15:00 1429

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第八节Catalogs(二)及本章小结)

本节介绍了catalogs的分类以及Flink的表如何注册到catalog中

2025-12-15 14:45:00 600

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第八节Catalogs(一))

本节介绍了catalogs的分类以及Flink的表如何注册到catalog中

2025-12-15 10:15:00 473

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第七节函数(二))

本节介绍了Flink的系统内置函数与自定义函数的开发过程及示例

2025-12-12 15:30:00 538

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第七节函数(一))

本节介绍了Flink的系统内置函数与自定义函数的开发过程及示例

2025-12-12 13:30:00 522

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第六节窗口(二))

第六节讲述了Flink非常重要的应用-窗口的应用,介绍了滑动、滚动和累积窗口,并介绍了窗口的聚合,同时讲述了Top-N和窗口的Top-N,以详细的示例进行说明。

2025-12-12 10:15:00 534

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第六节窗口(一))

第六节讲述了Flink非常重要的应用-窗口的应用,介绍了滑动、滚动和累积窗口,并介绍了窗口的聚合,同时讲述了Top-N和窗口的Top-N,以详细的示例进行说明。

2025-12-11 15:15:00 2095

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第五节流上的联接(二))

第五节则是第四节更加广泛的应用-联接,讲述了四种联接以及表函数的应用。

2025-12-11 13:30:00 602

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第五节流上的联接(一))

第五节则是第四节更加广泛的应用-联接,讲述了四种联接以及表函数的应用。

2025-12-11 10:15:00 578

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第四节SQL入门与查询(二))

第四节则介绍了SQL的入门及示例,按照DataStream的格式介绍源、实时查询和下沉相关的内容,以及一个SQL是如何工作的。

2025-12-10 14:45:00 624

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第四节SQL入门与查询(一))

第四节则介绍了SQL的入门及示例,按照DataStream的格式介绍源、实时查询和下沉相关的内容,以及一个SQL是如何工作的。

2025-12-10 10:15:00 625

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第三节Table API & SQL 的流式处理(三))

第三节则按照流式处理必须涉及的状态、动态表、时间属性以及时态表在Table API & SQL 是如何工作的,也即了解其为什么。

2025-12-09 14:45:00 710

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第三节Table API & SQL 的流式处理(二))

第三节则按照流式处理必须涉及的状态、动态表、时间属性以及时态表在Table API & SQL 是如何工作的,也即了解其为什么。

2025-12-09 10:15:00 680

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第三节Table API & SQL 的流式处理(一))

第三节则按照流式处理必须涉及的状态、动态表、时间属性以及时态表在Table API & SQL 是如何工作的,也即了解其为什么。

2025-12-08 14:45:00 910

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第二节Table API 与 DataStream API集成(一))

第一、二节讲述了Table API & SQL 的用法以及如何与DataStream API进行集成,该部分对于编程来说非常重要,也是使用Flink的基础。

2025-12-08 10:15:00 2365

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第二节Table API 与 DataStream API集成(二))

第一、二节讲述了Table API & SQL 的用法以及如何与DataStream API进行集成,该部分对于编程来说非常重要,也是使用Flink的基础。

2025-12-05 14:35:56 893

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第一节Table API& SQL编程指南(二))

第一、二节讲述了Table API & SQL 的用法以及如何与DataStream API进行集成,该部分对于编程来说非常重要,也是使用Flink的基础。

2025-12-05 14:02:31 875

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(整章)

介绍了Flink的三大基础核心技术之一的DataStream,其余的2个核心基础分别是Flink Table API & SQL和Connector。本章先从DataStream API编程指南开始,让读者对DataStream有一个直观的认识,比较系统的介绍了DataStream的使用过程及相关的内容。接下来就对DataStream API在处理流批应用的不同方式。再接下来的第三节就DataSource的原理进行了介绍,同时针对DataStream编程中的Source、transformation和sin

2025-12-05 10:15:00 1010

原创 Flink原理与实战(java版)#第7章 Flink的 Table API & SQL(第一节Table API& SQL编程指南(一))

第一、二节讲述了Table API & SQL 的用法以及如何与DataStream API进行集成,该部分对于编程来说非常重要,也是使用Flink的基础。

2025-12-05 10:15:00 883

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第五节管理执行与第六节本章小结)

第五节针对Flink的执行配置、打包和并行执行进行了说明。执行配置中针对Flink在编码阶段通过设置不同的参数进行说明和使用;打包则是实际开发中非常必要的过程,因为编码的结果最终都是放在Flink集群中运行的,所以该步骤是必须的;Flink的并行执行则是说明算子的并行度如何设置,良好的并行度配置往往决定了Flink的性能,需要特别注意。

2025-12-04 14:45:00 912

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第四节转换算子)

第四介绍了Flink的23种常用的转换算子、物理分区算子链和资源组以及名字和描述的内容,同时针对比较常用的给出了相应的示例,比如OutputTag和Process算子代替Split和Select示例。

2025-12-04 10:15:00 926

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第三节数据源(二))

第三节介绍了DataSource的相关内容,通过本节的介绍大致上能理解DataSource的实现过程及逻辑,为更深入的理解Flink source提供了较为坚实的基础。本节通过DataSource的原理、API、SplitReader API、事件时间和水印以及DataStream 连接器几个方面进行了说明。

2025-12-03 14:45:00 974

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第三节数据源(一))

第三节介绍了DataSource的相关内容,通过本节的介绍大致上能理解DataSource的实现过程及逻辑,为更深入的理解Flink source提供了较为坚实的基础。本节通过DataSource的原理、API、SplitReader API、事件时间和水印以及DataStream 连接器几个方面进行了说明。

2025-12-03 10:15:00 983

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第二节流批执行模式)

第二节介绍了流批的执行模式,旨在让读者了解Flink DataStream 是如何通过一套API解决实际的流批不同的应用场景问题。介绍了批执行模式的应用场景和配置方式、流批的执行行为和其不同之处。

2025-12-02 14:45:00 1023

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第一节DataStream API 编程指南(三))

第一节介绍了Flink DataStream API编程指南,该部分是使用Flink的基础。通过DataStream API程序剖析、DataSource、Transformation、Sink、Iteration、执行参数和调试几个角度进行介绍,并以一个示例展示其常见的使用方式。在完成本节的学习后,基本上能熟练的使用DataStream API,不同的是在该节的基础上了解更多的API的使用方式。

2025-12-02 10:15:00 1040

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第一节DataStream API 编程指南(二))

第一节介绍了Flink DataStream API编程指南,该部分是使用Flink的基础。通过DataStream API程序剖析、DataSource、Transformation、Sink、Iteration、执行参数和调试几个角度进行介绍,并以一个示例展示其常见的使用方式。在完成本节的学习后,基本上能熟练的使用DataStream API,不同的是在该节的基础上了解更多的API的使用方式。

2025-12-01 14:45:00 1072

原创 Flink原理与实战(java版)#第6章 Flink的 DataStream API(第一节DataStream API 编程指南(一))

第一节介绍了Flink DataStream API编程指南,该部分是使用Flink的基础。通过DataStream API程序剖析、DataSource、Transformation、Sink、Iteration、执行参数和调试几个角度进行介绍,并以一个示例展示其常见的使用方式。在完成本节的学习后,基本上能熟练的使用DataStream API,不同的是在该节的基础上了解更多的API的使用方式。

2025-12-01 10:15:00 2068

9、NIFI综合应用场景-通过NIFI配置kafka的数据同步

9、NIFI综合应用场景-通过NIFI配置kafka的数据同步 网址:https://blog.csdn.net/chenwewi520feng/article/details/130622776 本文旨在介绍nifi与kafka的交互过程,即生产数据到kafka中,然后通过nifi消费kafka中的数据。 本文前提是nifi、kafka环境正常。 本文分为三个部分,即处理器说明、生产数据到kafka中以及消费kafka中的数据。

2023-05-29

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二)

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130465463 本文通过在hdfs中三种不同数据格式文件存储相同数量的数据,通过hive和impala两种客户端查询进行比较。 本文前提:熟悉hadoop、hive和impala、kafka、flink等,并且其环境都可正常使用。(在后续的专栏中都会将对应的内容补全,目前已经完成了zookeeper和hadoop的部分。) 本文分为五个部分,即结论、三种文件介绍、需求、实现步骤、实现和网上别人的结论与验证。 由于本文太长,导致阅读可能比较麻烦,故一篇文章分为两篇,第一篇是准备数据,第二篇是查询比较。本文是第二篇。 本文接1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一),阅读本文前需要先阅读第一篇。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.

2023-05-29

5、NiFi FileFlow示例和NIFI模板示例

5、NiFi FileFlow示例和NIFI模板示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130614514 本文旨在介绍FlowFile属性和内容、模板和简单介绍一个应用示例。其中模板将是后续文章的主要使用内容。 本分前提是nifi环境正常使用。 本分分为三个部分,即FlowFile生成器示例、模板以及FlowFile的内容与属性。

2023-05-29

1、nifi-1.9.2介绍、单机部署及简单验证

1、nifi-1.9.2介绍、单机部署及简单验证 网址:https://blog.csdn.net/chenwewi520feng/article/details/130595158 本文主要介绍了NIFI是什麽、单机的部署、简单验证(以getFile为例)和相关组件。 本文的前提是安装好像对应的jdk即可。 本文分为三部分,即简单介绍、单机部署和组件介绍。

2023-05-29

2、HDFS操作 - shell客户端

2、HDFS操作 - shell客户端 网址:https://blog.csdn.net/chenwewi520feng/article/details/130325405 本文介绍hdfs的shell操作,本文的前提是hdfs的功能正常运行。 本文分为2个部分介绍,即语法格式与具体示例。

2023-05-29

3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件

3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java 网址:https://blog.csdn.net/chenwewi520feng/article/details/130326202 本示例介绍java通过api操作hdfs。 主要包含HDFS的读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等。 本文分为2个部分,即环境准备和示例。

2023-05-29

6、NIFI应用场景-离线同步Mysql数据到HDFS中

6、NIFI应用场景-离线同步Mysql数据到HDFS中 网址:https://blog.csdn.net/chenwewi520feng/article/details/130619480 本文旨在说明将mysql数据同步至HDFS中,并进行验证。阅读本文前最好是阅读本系列的前面文章关于模板中的介绍。 本文的前提依赖是mysql环境有数据、hadoop、nifi、hive、hue环境是搭建好的。如果hue环境没有,则在hdfs中进行验证。 本文分为四部分,即实现流程、使用的处理器介绍、在nifi中操作和验证结果。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130619480

2023-05-29

1、hadoop3.1.4简单介绍及部署、简单验证

1、hadoop3.1.4简单介绍及部署、简单验证 网址:https://editor.csdn.net/md/?articleId=130322812 本文介绍hadoop的发展过程、3.1.4的特性、部署及简单验证。 本文前提依赖:免密登录设置、jdk已经安装、zookeeper部署完成且正常运行。具体参见相关文章,具体在zookeeper专栏、环境配置。 本文分为三个部分介绍,即hadoop发展史、hadoop3.1.4部署及验证。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130322812

2023-05-29

8、NIFI综合应用场景-NiFi监控MySQL binlog进行实时同步到hive

8、NIFI综合应用场景-NiFi监控MySQL binlog进行实时同步到hive 网址:https://blog.csdn.net/chenwewi520feng/article/details/130620988 本文旨在介绍通过实时监控mysql的binlog实现数据的实时同步至hive中。但由于hive执行insert语句的效率较低,一般不会这么使用。 本文的前提是hive、mysql、nifi环境可正常使用。 本文分为四部分,即实现流程、处理器说明、操作与验证。

2023-05-29

7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中

7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中 网址:https://blog.csdn.net/chenwewi520feng/article/details/130620392 本文是在6、NIFI综合应用场景-离线同步Mysql数据到HDFS中基础上完成的,仅仅是将上文中的json数据转成txt文件。本文仅列出了和该示例增加的部分,其他的则没有变化。 本文前置条件是mysql、hadoop、nifi、hive和hue环境运行正常。如果没有hive或hue环境,则可通过查看hadoop的文件数据即可。 本分分为四部分,即实现流程、处理器说明、操作和验证。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130620392

2023-05-29

2、NIFI应用示例-GetFile和PutFile应用

2、NIFI应用示例-GetFile和PutFile应用 网址:https://blog.csdn.net/chenwewi520feng/article/details/130596577 本文前提是NIFI环境已经部署好。 本示例为NIFI的第一个应用示例,旨在说明Nifi的工作过程。 本文通过GetFile读取一个文件,然后将读取的内容通过PutFile写入到一个文件中。 本文分为四个部分,即添加GetFile处理器、添加PutFile处理器、添加GetFile和PutFile的连接器以及最终的验证。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130596577

2023-05-29

3、kafka重要概念介紹及示例

3、kafka重要概念介紹及示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130577766 本文介绍了kafka相关重要的概念及使用示例。 本文前提是kafka环境可用。 本文分为五部分,即概念、幂等与事务、分区的leader和follower、消息可靠机制和限速机制。

2023-05-29

5、kafka监控工具Kafka-Eagle介绍及使用

5、kafka监控工具Kafka-Eagle介绍及使用 网址:https://blog.csdn.net/chenwewi520feng/article/details/130581571 本文主要介绍了kafka监控工具Kafka-Eagle的使用。 本文依赖:kafka、zookeeper部署完成。 本分分为三个部分介绍,即Kafka-Eagle介绍、部署和验证。

2023-05-29

4、kafka分区、副本介绍及示例、高级API与低级API

4、kafka分区、副本介绍及示例、高级API与低级API 网址:https://blog.csdn.net/chenwewi520feng/article/details/130580533 本文主要介绍分区与副本机制、高级api使用示例手动消费分区数据等。 本文前提是kafka环境可用。 本文分为2个部分,即分区与副本机制、高级API与低级API。

2023-05-29

1、kafka(2.12-3.0.0)介绍、部署及验证、基准测试

1、kafka(2.12-3.0.0)介绍、部署及验证、基准测试 网址:https://blog.csdn.net/chenwewi520feng/article/details/130575377 本文主要介绍了kafka的作用、部署及验证、基本的shell操作和进行基准测试。 本文的前置依赖是zookeeper部署好、免密登录也设置完成。如果未完成,则可参考本人zookeeper专栏内容。 本文分为四个部分,即kafka简介、环境部署、基本shell操作和基准测试。

2023-05-29

2、java调用kafka api

2、java调用kafka api 网址:https://blog.csdn.net/chenwewi520feng/article/details/130577664 本分介绍java调用kafka api。 本文前置条件是kafka环境搭建好。 本分五部分,即简单的写数据到kafka、从topic中消费数据、异步回调、读写kafka中复杂数据类型和读取历史数据。

2023-05-29

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一)

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130465139 本文通过在hdfs中三种不同数据格式文件存储相同数量的数据,通过hive和impala两种客户端查询进行比较。 本文前提:熟悉hadoop、hive和impala、kafka、flink等,并且其环境都可正常使用。(在后续的专栏中都会将对应的内容补全,目前已经完成了zookeeper和hadoop的部分。) 本文分为五个部分,即结论、三种文件介绍、需求、实现步骤、实现和网上别人的结论与验证。 由于本文太长,导致阅读可能比较麻烦,故一篇文章分为两篇,第一篇是准备数据,第二篇是查询比较。本文是第一篇。 本文接1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二),比较的具体数据在第二篇。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0

2023-05-29

5、zookeeper的java -Curator(服务注册与发现)

5、zookeeper的java -Curator(服务注册与发现) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130320669 本文介绍使用zookeeper的Curator类库实现服务的注册与发现。 该示例会涉及到本专栏下的其他文章,比如:4、zookeeper的java三种客户端介绍-Curator(crud、事务操作、监听、分布式计数器、分布式锁) 等文章,都是在该专栏下的。

2023-05-29

4、NIFI集群部署及验证

4、NIFI集群部署及验证 网址:https://blog.csdn.net/chenwewi520feng/article/details/130613725 本分主要介绍NIFI的两种集群部署方式以及节点的日常管理和简单介绍state管理。 本文前提依赖是zookeeper环境具备。 本分分为三个部分,即集群部署、节点管理和state管理。

2023-05-29

3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看

3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看 网址:https://blog.csdn.net/chenwewi520feng/article/details/130605012 本文主要介绍了NIFI的常见处理器,并按照一定的类别进行分类和介绍;同时介绍了处理器的常见属性;NIFI的模板简单介绍,接下来文章中有具体的关于模板的使用示例;以及NIFI的运行情况的信息查看。 本分主要分为四部分,即处理器类别、处理器属性、模板和运行情况信息查看。

2023-05-29

12、HDFS Trash垃圾桶回收介绍与示例

12、HDFS Trash垃圾桶回收介绍与示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130359929 本文主要介绍HDFS Trash垃圾桶回收。 前提依赖:hadoop可以正常使用。 本文分为三部分,即介绍、配置以及验证。

2023-05-29

22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件

22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件 网址:https://blog.csdn.net/chenwewi520feng/article/details/130456088 本文的前提是hadoop环境正常。 本文最好和MapReduce操作常见的文件文章一起阅读,因为写文件与压缩往往是结合在一起的。 相关压缩算法介绍参考文章:HDFS文件类型与压缩算法介绍。 本文介绍写文件时使用的压缩算法,包括:Gzip压缩、Snappy压缩和Lzo压缩。 本文分为3部分,即Gzip压缩文件的写与读、Snappy压缩文件的写与读和Lzo压缩文件的写与读。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130456088

2023-05-29

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化 网址:https://blog.csdn.net/chenwewi520feng/article/details/130457270 本文介绍在hadoop集群中,不适用默认的参数情况下,yarn的cpu和内容配置。 本文依赖是hadoop集群正常运行。 本文分为3个部分,即概述、cpu和内存配置。

2023-05-29

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件 网址:https://blog.csdn.net/chenwewi520feng/article/details/130455817 本文介绍使用MapReduce读写文件,包括:读写SequenceFile、MapFile、ORCFile和ParquetFile文件。 本文前提:hadoop环境可正常使用。pom.xml文件内容参考本专栏中的其他文章内容。 本文分为四部分,即MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件。 下篇文章介绍压缩算法的使用。 关于本文的前置内容介绍,参考链接hdfs的文件系统与压缩算法 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/13

2023-05-29

19、Join操作map side join 和 reduce side join

19、Join操作map side join 和 reduce side join 网址:https://blog.csdn.net/chenwewi520feng/article/details/130455477 本文介绍mapreduce的join操作。 本文前提是hadoop可以正常使用。 本文分为3个部分介绍,即join的介绍、map side join和reduce side join。

2023-05-29

7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法

7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法 网址:https://blog.csdn.net/chenwewi520feng/article/details/130337213 本文主要介绍大数据环境中常见的文件存储格式、压缩算法。 本文分为2个部分,即文件存储格式(Text File、Sequence File、Avro File、RCFile、ORC File、Parquet File、Arrow)和压缩算法(snappy、lz4、gzip、lzo)。

2023-05-29

18、MapReduce的计数器与通过MapReduce读取-写入数据库示例

18、MapReduce的计数器与通过MapReduce读取_写入数据库示例 网址:https://blog.csdn.net/chenwewi520feng/article/details/130454774 本文介绍MapReduce的计数器使用以及自定义计数器、通过MapReduce读取与写入数据库示例。 本文的前提依赖是hadoop可正常使用、mysql数据库中的表可用且有数据。 本文分为2个部分,即计数器与读写mysql数据库。

2023-05-29

20、MapReduce 工作流介绍

20、MapReduce 工作流介绍 网址:https://blog.csdn.net/chenwewi520feng/article/details/130455696 本文介绍MapReduce 工作流。 本文前提:hadoop环境可用。

2023-05-29

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN 网址:https://blog.csdn.net/chenwewi520feng/article/details/130454036 本文介绍MapReduce常见的基本用法。 前提是hadoop环境可正常运行。 本文分为五个部分,即介绍自定义序列化、排序、分区、分组和topN。

2023-05-29

17、MapReduce的分区Partition介绍

17、MapReduce的分区Partition介绍 网址:https://blog.csdn.net/chenwewi520feng/article/details/130454574 本文介绍MR的分区Partition。 本文分为2个部分,即介绍与示例。 前提依赖:hadoop环境可正常使用。

2023-05-29

15、MapReduce介绍及wordcount

15、MapReduce介绍及wordcount 网址:https://blog.csdn.net/chenwewi520feng/article/details/130431900 本文主要介绍mapreduce的编程模型及wordcount实现、运行环境介绍。 前提依赖:hadoop环境可用,且本地的编码环境已具备。若无,则建议参考本专栏的相关文章。 本文分为3个部分,即mapreduce编程模型介绍和wordcount实现、运行环境介绍。

2023-05-29

13、HDFS Snapshot快照

13、HDFS Snapshot快照 网址:https://blog.csdn.net/chenwewi520feng/article/details/130362505 快照(Snapshot)是数据存储的某一时刻的状态记录;与备份不同,备份(Backup)则是数据存储的某一个时刻的副本。 HDFS Snapshot快照是整个文件系统或某个目录在某个时刻的镜像。 该镜像并不会随着源目录的改变而进行动态的更新。

2023-05-29

11、hadoop环境下的Sequence File的读写与合并

11、hadoop环境下的Sequence File的读写与合并 网址:https://blog.csdn.net/chenwewi520feng/article/details/130359237 本文介绍hadoop环境下的Sequence File的读写与合并。 本文依赖:hadoop环境可用,本示例是以hadoop的HA环境作为示例的,如果不是HA环境,参考本专栏的hdfs文件的常规操作。

2023-05-29

10、HDFS小文件解决方案-Archive

10、HDFS小文件解决方案--Archive 网址:https://blog.csdn.net/chenwewi520feng/article/details/130348069 本文介绍hdfs在使用过程中产生小文件的处理方式。 本文使用Archive来合并hdfs的小文件。 本文分为2个部分,即Archive介绍及使用示例。 本文依赖前提:hadoop集群可以正常使用,且相关的文件提前已经准备好。

2023-05-29

9、hadoop高可用HA集群部署及三种方式验证

9、hadoop高可用HA集群部署及三种方式验证 网址:https://blog.csdn.net/chenwewi520feng/article/details/130344998 本文介绍hadoop HA环境部署。本文分为三部分,即HA集群规划、HA集群部署和HA集群验证 前提依赖: 1、前提是zookeeper已经部署好,其服务器部署在server1、server2、server3上,且能正常运行 2、ssh免登录已完成配置,且完成NameNode和NameNode的相互免密,比如server1和server2是两个NameNode,其相互已经免密。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130344998

2023-05-29

8、HDFS内存存储策略支持和“冷热温”存储

8、HDFS内存存储策略支持和“冷热温”存储 网址:https://blog.csdn.net/chenwewi520feng/article/details/130338388 本文介绍HDFS的存储策略以及“冷热温”存储的配置。 本文的前提依赖是hadoop集群环境可以正常的运行。

2023-05-29

4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置)

4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置) 网址:https://blog.csdn.net/chenwewi520feng/article/details/130334620 本文编写了java对HDFS的常见操作,并且均测试通过。 其功能包含构造conf、设置系统环境变量、创建目录、判断文件是否存在、获取文件/目录的大小等

2023-05-29

14、HDFS 透明加密KMS

14、HDFS 透明加密KMS 网址:https://blog.csdn.net/chenwewi520feng/article/details/130429278 本文旨在简单介绍hdfs的透明加密作用及其使用。 前提依赖:hadoop环境部署好且可用。部署文章可参考本专栏相关文章。 本文分为2部分,即介绍和部署及使用。

2023-05-29

6、HDFS的HttpFS-代理服务

6、HDFS的HttpFS-代理服务 网址:https://blog.csdn.net/chenwewi520feng/article/details/130336221 本文介绍HttpFS的使用。 可以与前一篇文章一起阅读。HDFS API的RESTful风格–WebHDFS 本文分为四部分,即介绍、配置、验证与和WebHDFS的比较。 本文阅读前提是已经部署好hadoop环境,具体部署参考hadoop3.1.4简单介绍及部署、简单验证

2023-05-29

5、HDFS API的RESTful风格-WebHDFS

5、HDFS API的RESTful风格--WebHDFS 网址:https://blog.csdn.net/chenwewi520feng/article/details/130335776 本文简单介绍WebHDFS和使用。

2023-05-29

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除