Apache NIFI
酷酷的诚(公众号:Panda诚)
这个作者很懒,什么都没留下…
展开
-
NIFI里的数据库连接池
点击上方蓝色“Panda诚”,选择“设为星标”通常我们在NIFI里最常见的使用场景就是读写关系型数据库,一些组件比如GenerateTableFetch、ExecuteSQL、PutSQL、ExecuteSQLRecord、PutDatabaseRecord等等,都会有一个属性配置大概叫Database Connection Pooling Service的,对应的接口是DBCPService,其实现类有:HiveConnectionPool DBCPConnectionPool DBCPCo.转载 2020-09-24 19:51:04 · 3214 阅读 · 3 评论 -
NIFI里你用过PutDatabaseRecord嘛?
点击上方蓝色“Panda诚”,选择“设为星标”描述PutDatabaseRecord处理器使用指定的RecordReader从传入的流文件中读取(可能是多个,说数组也成)记录。这些记录将转换为SQL语句,并作为一个批次执行。如果发生任何错误,则将流文件路由到failure或retry,如果执行成功,则将传入的流文件路由到success。处理器执行的SQL语句类型通过Statement Type属性指定,该属性接受一些硬编码的值,例如INSERT,UPDATE和DELETE,使用“Use stat转载 2020-09-24 19:50:07 · 2906 阅读 · 0 评论 -
Apache NIFI项目结构的类资源隔离机制
前言本文简单的讨论一下Apache NIFI项目结构的类资源隔离机制,适合接触过源码的同学阅读。NIFI的常见的子Moudle结构以nifi-flume-bundle为例nifi-flume-bundle--nifi-flume-processors--nifi-flume-narnifi-flume-bundle 有两个子项目,nifi-flume-processors里是Processor的具体实现,打成jar包。nifi-flume-nar里没有代码实现...原创 2020-07-25 20:54:52 · 518 阅读 · 0 评论 -
深入理解Apache NIFI Run Duration
Run Duration一些处理器支持配置运行持续时间(Run Duration)。此设置告诉处理器在单个任务中继续使用同一task尽可能多地来处理来自传入队列的的FlowFiles(或成批的流文件)。对于处理单个任务本身非常快并且FlowFile数量也很大的处理器来说,这是一个理想的选择。在上面的示例中,将完全相同的FlowFiles传递到这两个处理器,这些处理器被配置为执行相同的Attribute更新。两者在过去5分钟内处理了相同数量的FlowFiles;但是,配置为运行持续时间的处理器消耗的原创 2020-06-15 16:19:58 · 1269 阅读 · 0 评论 -
深入解析Apache NIFI的调度策略
简介:本文主要讲解Apache NIFI的调度策略,对象主要是针对Processor组件。本文假定读者已经对Apache NIFI有了一定的了解和使用经验,同时作者也尽可能的去讲解的更透彻,使得本文尽可能让对NIFI接触不深的读者也能够看懂。NIFI的调度策略打开任意一个Processsor,在其配置页面SCHEDULING页签我们可以配置它的调度策略,如下图所示:在流程中有一类的Processor的实例是不允许传入FlowFIle的,我们姑且可以称之为流程源结点(第一个节点)。这类Process原创 2020-06-09 14:50:19 · 5122 阅读 · 5 评论 -
带你体验Apache NIFI新建数据同步流程(NIFI入门)
初衷:对于一些新接触Apache NIFI的小伙伴来说,他们急于想体验NIFI,恨不得直接找到一篇文章,照着做就直接能够解决目前遇到的需求或者问题,回想当初的我,也是这个心态。其实这样的心态是不对的。好多加入NIFI学习群的新手同学都会有这个问题,一些基本的概念和知识点都没有掌握,然后提出了一堆很初级的问题,对于这些问题,我们可能已经回答了几十上百次,厌倦了,所以大家一般会说"你先去看文档吧!"。其实,对于一个新手,直接看文档,也是一脸懵。所以在这里,我带领新手的你,新建一个同步的流程,并尽可能在新建流程的原创 2020-06-09 14:46:13 · 4724 阅读 · 1 评论 -
探索 Apache NIFI 集群的高可用
前言:本文重点在于通过模拟事故来探索Apache NIFI集群的高可用,情景假定有一个3节点的NIFI集群,其中某个节点因为未知原因与集群失联,研究集群(两个在联节点集群)和失联的节点会发生什么,各个节点上的数据会怎样。(注意:节点因为未知原因与集群失联区别于系统管理员手动卸载节点)。除此之外,其他不做重点。我尽量详细描述探索过程,读者可以跟着本文一起实地操作验证。搭建3节点伪集群本节简单说明一下在本地搭建一个3节点的伪集群配置。NIFI版本:nifi-1.12.0-SNAPSHOT(是的,你没看错原创 2020-05-21 16:46:28 · 1006 阅读 · 2 评论 -
Apache NIFI入门(读完即入门)
Apache NIFI入门(读完即入门)编辑人(全网同名):酷酷的诚 邮箱:zhangchengk@foxmail.com我将在本文中介绍:什么是ApacheNIFI,应在什么情况下使用它,理解在NIFI中的关键概念。我不会介绍的内容:-NIFI集群的安装,部署,监视,安全性和管理。什么是ApacheNIFI?在ApacheNIFI项目的官网上,可以找到以下定义:一个易于使用,功能强大且可靠处理和分发数据的系统。接下来我们分析一下关键字。###NIFI定义处理和分发数据这原创 2020-05-18 17:44:13 · 3577 阅读 · 2 评论 -
深入理解Apache NIFI Connection
深入理解NIFI Connection编辑人(全网同名):酷酷的诚 邮箱:zhangchengk@foxmail.com简介NiFi Connection是在两个已连接的NiFi处理器组件之间临时保存FlowFiles的位置。每个包含排队的NiFi FlowFiles的Connection在JVM堆中都会占一些空间。本文将对Connection进行分析,探究NiFi如何管理在该Connection中排队的FlowFiles和Connection对堆和性能的影响。正文首先看一下下面这张说明图原创 2020-05-18 17:37:12 · 676 阅读 · 0 评论 -
了解Apache NiFi最大线程池和处理器并发任务设置
了解NiFi最大线程池和处理器并发任务设置编辑人(全网同名):酷酷的诚 邮箱:zhangchengk@foxmail.comMax Timer Driven Thread Count 和 Max Event Driven Thread CountNiFi可以设置相对较低的最大计时器线程计数(Max Timer Driven Thread Count),以支持在最简单的硬件上运行。此默认设置可能会限制必须执行大量并发处理的超大容量数据流的性能。设置此值的一般建议是运行NiFi服务的硬件可用内核数原创 2020-05-18 17:36:21 · 1672 阅读 · 2 评论