目的:
nifi在国内的使用相对较少,也有一些博客介绍了一些nifi的概念,但是nifi里面processor的种类非常之多,文档对于每个processor功能描述相对单薄。而且有些地方解释的含含糊糊,说白了,就是还是有点使用门槛的。本文直接上实际的例子。可以供大家参考。一些涉及到的知识点不会细讲。
nifi使用背景:
希望借助nifi监控某个目录,能够将被监控目录下的数据文件采集并写入hive中去。nifi提供了PutHiveQL、PutHiveStreaming、PutSQL三种processor,这三种processor对flowfile的要求也不尽相同。本文选用了如下图1所示的几种processor作为功能测试。
需要了解的知识:
1,hive的orc存储格式。
2,hive的分区、分桶概念,使用场景。
3,nifi flowfile、processor基本概念。
集群环境介绍:
1,CDH5.11
2,nifi1.4
上述案例遇到的坑:
1&#