5 分钟，用 NiFi 自动传输系统间的数据流

最新推荐文章于 2024-08-06 09:57:50 发布

海角天涯_945

最新推荐文章于 2024-08-06 09:57:50 发布

阅读量1.5k

点赞数

分类专栏：工具文章标签： flink apache 实时大数据

本文链接：https://blog.csdn.net/qq_16046891/article/details/109205455

版权

本文介绍了为何在推荐引擎场景中不使用Flink，转而采用Apache NiFi进行数据流处理。NiFi以其拖放界面、无需编码、支持多种数据源、自动负载均衡等特点，简化了数据传输。文章详细讲述了NiFi的架构、使用场景，以及如何通过NiFi搭建数据流管道，包括Processor的配置和集群搭建。此外，还展示了NiFi在推荐引擎中的应用案例，如实时数据落地到HDFS、ES，以及如何扩展开发定制Processor。

摘要由CSDN通过智能技术生成

一、我们为什么不用 Flink

在信息流推荐业务场景中，数据是模型迭代的原材料，是指标增长的重要基石，而「数据流」则贯穿整个推荐业务场景。

一些系统创建了数据，而另一些系统需要使用这些数据。因此高效的数据流托管和自动化传输，是很长时间以来一直困扰我们的问题。为了使不同系统间的数据标准得到统一，企业常用 Flink 或 Storm（以下简称 FS）构建系统间数据流传输的解决方案。但是在推荐架构侧，很多场景下直接搬运数据流即可，不需要进行大量转化，这时使用 FS 的代价就有点大了，而且并不高效。

对于数据流的处理和分发，Apache 家族的另一大成员 NiFi 则更擅长做这种事情。假如老板给你一个新需求，要增加一路数据到 ES。如果使用 FS 的话，代码开发、测试、部署再到线上验证，这个复杂的流程可能会用掉一上午的时间，但对于 NiFi 来说，你可能只用 5 分钟就可以完成。

目前可供查阅的 NiFi 资料并不多，本文将结合 NiFi 在信息流推荐引擎中的使用，简单介绍 NiFi 的特点和使用方式，以期抛转引玉。

二、面向流程的大数据处理框架 NiFi

NiFi 最初由美国国家安全局（NSA）开发和使用的一个可视化、可定制的数据集成产品。2014 年 NSA 将其贡献给了 Apache 开源社区，2015 年 7 月成为 Apache 顶级项目。

2.1 Nifi 特性

NiFi 为数据流而设计，它可以用来在不同的数据中心之间搭建数据流通的管道。NiFi 通过拖拽界面、配置参数、简单地连接，即可完成对数据流的托管和系统间的自动化传输，使用者可以可视化整个过程并实时进行更改。相比于 FS，它还有很多优秀的特性：

Web 界面拖放组件，并支持图形化配置
使用人员无需进行代码开发
支持多种数据源
自动进行负载均衡和反压
方便监控
便于扩展且易恢复
支持模板复用
下面，我们试着通过 Nifi 的框架来了解它在界面上搭建的工作流，到底是以什么形式在后端进行解析和运转的。

2.2 框架和集群

NiFi 是基于 Java 的，通过主机上的 JVM 来进行执行，主要由Web Server、Flow Controller、Repository 这三个核心部件组成：
在这里插入图片描述
Web Server：NiFi 提供了基于 HTTP 协议的 Web 页面，我们可以通过 Web 页面来操作自己的 Task。
Flow Controller：NiFi 的核心部分，可以理解成文件交流的处理器；Processer 则是实际处理单元。

NiFi 将每一个功能集成到一个 Processor 上，Flow Controller 维持着多个处理器的连接并管理各个Processer。
NiFi 提供了许多可用的 Processor，如 HDFS、Attributes、Kafka 等，我们在使用时可以直接拖拽 Processor 并更改其配置。
当官方的 Processor 不能支持我们的业务需求时，我们还可以利用 Nifi 的可扩展性进行定制开发。

Repository：NiFi 提供了三个数据库 FlowFile、Content、Provenance，分别来存储数据流的运行状态、实际数据以及数据源信息。

NiFi 也支持集群模式，运行时每个节点执行相同操作、不同数据。集群依赖 ZooKeeper。ZK 会选出主节点以及集群协调器，负责监督其他节点的心跳：
在这里插入图片描述
综上我们可以看到，NiFi 为自动化系统之间的数据流提供了优秀的解决方案。无论数据源头是 MySQL、NoSQL、Kafka、Spark，NiFi 都可以提供相应的支持和丰富的 Processor。基于 WEB 图形界面，通过拖拽、连接、配置就可以完成基于流程的编程，实现数据采集、处理等功能。而且对集群模式的支持，也赋予了 Nifi 良好的横向扩展能力。

三、NiFi 在推荐引擎平台的应用及扩展

3.1 应用现状

目前，Nifi 已经应用在推荐引擎平台的很多在线任务中，包括用户行为实时数据落入 HDFS、曝光事件落盘到 ES、Session 数据的同步任务、兴趣标签落盘到 MySQL 等。
在这里插入图片描述
下面是一个用户行为数据实时落盘到 HDFS 的实例：

其中每个 Processor 都可以通过图形化配置相应的属性，无需代码开发即可完成数据的传输。其中 EvaluateJsonPath 的作用是取 FlowFile 中的属性给某个字段赋值以方便后续使用，UpdateAttribute 的作用是对某些字段进行简单处理。从配置这些 Processor 到完成一个 Job 只需要几分钟的时间，极大提升了大家的工作效率。

以下是我们推荐引擎团队使用 NiFi 的一些主要的 Processor Group/Job，主要包括：

实时用户行为数据落盘到 Hive 表，为算法组同学计算小时级模型提供了数据支撑；
实时行为数据落入 ES，帮助提供包括首页在内的各个场景的实时监控（CTR 监控、各路召回监控、排序打分情况等）；
用户每一屏的画像快照落盘到 ES，为推荐架构历史查询系统提供数据支持，对线上修复各种 Bad Case 提供了便利；
帮助内容挖掘组的同学解决了新增推荐池笔记图片的打分存储问题。

3.2 扩展开发

虽然 NiFi 已经集成了很多 Processor 供我们使用，但是随着业务复杂度不断升级，有时候我们需要定制开发适合团队的 Processor。比如我们业务场景中用到了 RocketMQ，NiFi 本身是不支持 RocketMQ 数据流的传输的，这时就需要进行扩展性开发。

通常，通过继承 AbstractProcessor 抽象类，并复写 onTrigger 与 onScheduled 方法来进行开发。每一个 Processor 都有相应的配置，而配置信息可用下边这段代码来进行添加：

private final PropertyDescriptor TOPIC = new PropertyDescriptor.Builder()
            .name("TOPIC")
            .displayName("TOPIC")
            .description("TOPIC")
            .required(true)
            .addValidator(StandardValidators.NON_BLANK_VALIDATOR

最低0.47元/天解锁文章

海角天涯_945

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
5 分钟，用 NiFi 自动传输系统间的数据流

一、我们为什么不用 Flink在信息流推荐业务场景中，数据是模型迭代的原材料，是指标增长的重要基石，而「数据流」则贯穿整个推荐业务场景。一些系统创建了数据，而另一些系统需要使用这些数据。因此高效的数据流托管和自动化传输，是很长时间以来一直困扰我们的问题。为了使不同系统间的数据标准得到统一，企业常用 Flink 或 Storm（以下简称 FS）构建系统间数据流传输的解决方案。但是在推荐架构侧，很多场景下直接搬运数据流即可，不需要进行大量转化，这时使用 FS 的代价就有点大了，而且并不高效。对于数据流的处
复制链接

扫一扫

专栏目录