NiFi-面向流程的大数据处理框架

任何一个大数据分析的软件,都需要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎。数据拉取组件和流程则是NiFi的主要强项。

一、NiFi是什么?

Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,现在开源出来,由Apache基金会进行管理。

NiFi flow

NiFi是基于Java的,使用Maven支持包的构建管理。 NiFi基于Web方式工作,后台在服务器上进行调度。可以为数据处理定义一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。

二、NiFi的安装

首先需要安装maven和java的最新版,在Ubuntu上的OpenJDK会遇到遇到一些问题,因此建议从Oracle的官网http://java.com去下载,而且要SDK而不是jre。解压后到/etc/profile文件中设置JAVA_HOME的路径,以便让其它的程序能访问到。然后安装maven,ubuntu15.04的maven版本也都太久了,到http://maven.apache.org/去下载一个最新的版本,然后设置MAVEN_HOME的路径,并加到PATH环境变量中。设置完了后,看起来是这个样子:

export JAVA_HOME=/home/supermap/jdk1.8.0_51
export MAVEN_HOME=/home/supermap/GIScript/apache-maven-3.3.3
export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH

现在,到http://nifi.apache.org/去下载NiFi的安装程序。由于NiFi采用maven进行包管理,因此编译过程中会自动下载大量的支持库,需要保持网络畅通。如果中间出错,一般是网络连接中断引起的,重新运行编译即可。

三、NiFi的使用

运行(为了让环境变量有效,最好重启一下系统):

mvn clean install

或者:mvn install -Dmaven.test.skip=true

如果使用代理:

npm config set proxy http://proxy.company.com:8080
npm config set https-proxy http://proxy.company.com:8080

然后,等待...等结束后,进/home/supermap/GIScript/nifi-0.2.1/nifi-assembly/target,找到nifi-XXX-bin.zip这个文件,拷贝到自己的运行目录,解压,进去,执行:

./bin/nifi.sh start

然后,通过浏览器访问地址:http://localhost:8080/nifi/,正常情况下,就能看到NiFi的主界面了。

停止服务使用:./bin/nifi.sh stop

目前的版本已经到1.1.X了,功能已经相当强大,但是目前的中文文档和教程都还很少,主要通过阅读源代码来理解程序的逻辑。英文还可以的,看这里:

 

 

转载于:https://my.oschina.net/u/2306127/blog/491176

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值