NIFI -- 文件数据写入hive

本文介绍了如何使用NIFI监控指定目录并将数据文件写入Hive,涉及PutHiveQL、PutHiveStreaming等Processor。在CDH5.11和nifi1.4环境下,遇到版本不兼容和PutHiveStreaming使用限制等问题,并给出了解决方案,包括替换jar包和调整配置以支持ORC存储格式和分区、分桶。
摘要由CSDN通过智能技术生成

目的:
nifi在国内的使用相对较少,也有一些博客介绍了一些nifi的概念,但是nifi里面processor的种类非常之多,文档对于每个processor功能描述相对单薄。而且有些地方解释的含含糊糊,说白了,就是还是有点使用门槛的。本文直接上实际的例子。可以供大家参考。一些涉及到的知识点不会细讲。


nifi使用背景:
希望借助nifi监控某个目录,能够将被监控目录下的数据文件采集并写入hive中去。nifi提供了PutHiveQL、PutHiveStreaming、PutSQL三种processor,这三种processor对flowfile的要求也不尽相同。本文选用了如下图1所示的几种processor作为功能测试。
图1


需要了解的知识:
1,hive的orc存储格式。
2,hive的分区、分桶概念,使用场景。
3,nifi flowfile、processor基本概念。


集群环境介绍:
1,CDH5.11
2,nifi1.4


上述案例遇到的坑:

1&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值