一 Apache NiFi

最新推荐文章于 2024-01-03 20:15:00 发布

置顶 LJF的博客

最新推荐文章于 2024-01-03 20:15:00 发布

阅读量286

点赞数 1

分类专栏： Nifi Nifi的介绍文章标签：大数据 java 面试经验分享程序人生

本文链接：https://blog.csdn.net/weixin_43401381/article/details/104278037

版权

Nifi 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

Nifi的介绍

1 篇文章 0 订阅

订阅专栏

Apache Nifi 概念

1.1, NIFI简介

Apache NiFi 是一个易于使用，功能强大且可靠的系统，用于处理和分发数据。可以自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑，支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目，目前已经代码开源，是Apache基金会的顶级项目之一。

NiFi是基于Java的，使用Maven支持包的构建管理。 NiFi基于Web方式工作，后台在服务器上进行调度。用户可以将数据处理定义为一个流程，然后进行处理，后台具有数据处理引擎、任务调度等组件。

1.2, NIFI核心概念

FlowFile：表示通过系统移动的每个对象，包含数据流的基本属性
FlowFile Processor（处理器）：负责实际对数据流执行工作
Connection（连接线）：负责不同处理器之间的连接，是数据的有界缓冲区
Flow Controller（流量控制器）：管理进程使用的线程及其分配
Process Group（过程组）：进程组是一组特定的进程及其连接，允许组合其他组件创建新组件

1.3, NIFI构架

在这里插入图片描述

NiFi在主机操作系统上的JVM内执行。JVM上的NiFi的主要组件如下：

1.3.1, 网络服务器

Web服务器的目的是托管NiFi的基于HTTP的命令和控制API。

1.3.2, 流控制器

流控制器是操作的大脑。它提供用于扩展程序运行的线程，并管理扩展程序接收资源以执行的时间表。

扩展

有各种类型的NiFi扩展在其他文档中描述。这里的关键是扩展在JVM中运行和执行。

1.3.4, FlowFile存储库

FlowFile存储库是NiFi跟踪目前在流程中活动的给定FlowFile的知识状态。存储库

实现是可插拔的。默认方法是位于指定磁盘分区上的持久写入前端日志。

1.3.5, 内容存储库

Content Repository是给定FlowFile的实际内容字节。存储库的实现是可插拔的。默认方法是一个相当简单的机制，它将数据块存储在文件系统中。可以指定多个文件系统存储位置，以便获得不同的物理分区，以减少任何单个卷上的争用。

1.3.6, 源头存储库

Provenance Repository是存储所有来源的事件数据的地方。存储库构造是可插入的，默认实现是使用一个或多个物理磁盘卷。在每个位置内，事件数据被索引和可搜索。

作为功能强大的数据处理和分发组件，sNiFi自然原生支持集群部署方式（推荐部署方式）。NiFi集群部署模式如下图：
在这里插入图片描述
集群模式下，NiFi集群中的每个节点对数据执行相同的任务，但是每个节点都在不同的数据集上进行操作。和大部分大数据组件一样，NiFi集群使用Apache ZooKeeper提供协调服务。 Apache ZooKeeper选择一个NiFi节点作为集群协调器，故障转移由ZooKeeper自动处理。所有集群节点向集群协调器报告心跳和状态信息。集群协调器负责节点的断开和连接。此外，ZooKeeper会为每个集群选举一个节点作为集群主节点。作为DataFlow管理器，您可以通过任何节点的用户界面（UI）与NiFi集群进行交互。您所做的任何更改都会同步到集群中的所有节点，从而允许多个入口点。

未完下期再续…

LJF的博客

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一 Apache NiFi

Apache Nifi 概念1.1, NIFI简介Apache NiFi 是一个易于使用，功能强大且可靠的系统，用于处理和分发数据。可以自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑，支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目，目前已经代码开源，是Apache基金会的顶级项目之一。NiFi是基于Java的，使用Maven支持包的构建管理。 ...
复制链接

扫一扫

专栏目录