Flume + HDFS Sink采集数据及如何添加第三方JAR

最新推荐文章于 2024-08-07 11:13:35 发布

qianshanding0708

最新推荐文章于 2024-08-07 11:13:35 发布

阅读量5.7k

点赞数

分类专栏： Flume 文章标签：添加第三方包 Flume+HDFS

本文链接：https://blog.csdn.net/qianshangding0708/article/details/49913493

版权

本文介绍了如何在Flume中添加HDFS Sink时处理缺失的第三方JAR包。Flume的plugins.d目录用于方便管理这些JAR，包括lib、libext和native子目录分别存放插件JAR、依赖JAR和本地库。以HDFS Sink为例，详细阐述了配置过程，包括插件目录结构和环境变量设置，最终实现从SpoolingDirectorySource向HDFS中传输数据。

摘要由CSDN通过智能技术生成

Flume默认情况下是没有引入HDFS，Kafka，Elasticsearch，Hbase等sink的相关jar包，如果使用，需要自行添加相关jar包。

下面我以使用HDFS Sink为例，在Flume中加入第三方JAR包。

Flume支持一种特殊的目录结构：plugins.d，它有特殊的格式，可以很方面的管理第三方JAR。当然我们可以直接把第三方JAR丢掉$FLUME_HOME/lib目录，但是这样不利于调试和排除故障，特别是处理JAR包冲突的问题。

plugins.d目录：
plugins.d目录位于$FLUME_HOME/plugins.d。在启动的时候，flume-ng启动脚本会检查 plugins.d 目录的插件确保符合下面的格式，并且包含了正确的路径。

插件目录布局：
每个在 plugins.d 内的插件，最多包含三个子目录。
1，lib - 插件的JAR。
2，libext - 插件依赖JAR（S）
3，native - 任何所需的本地库，例如：.so文件
下面是两个插件在 plugins.d 目录中的位置（以下以使用HDFS Sink为例）：

    plugins.d/  
    plugins.d/hdfs-sink/
    #flume-hdfs-sink-1.5.1.jar是Flume自带的，所有lib目录为空
    plugins.d/hdfs-sink/lib/    
    #flume-hdfs-sink-1.5.1.jar依赖以