Flume核心组件

最新推荐文章于 2023-02-26 16:48:19 发布

完美明天cxp

最新推荐文章于 2023-02-26 16:48:19 发布

阅读量1.1k

点赞数

分类专栏：大数据文章标签： Flume

本文链接：https://blog.csdn.net/weixin_43155301/article/details/87968750

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Flume主要由3个重要的组件构成：Source、Channel、Sink

1）Source：完成对日志数据的收集，分成transtion 和 event 打入到channel之中，Flume提供了各种source的实现，包括Avro Source、 Exce Source、 Spooling、Directory Source、 NetCat Source、 Syslog Source、 Syslog TCP Source、Syslog UDP Source、 HTTP Source、 HDFS Source等。
2）Channel： Flume Channel主要提供一个队列的功能，对source提供中的数据进行简单的缓存。Flume对于Channel，则提供了Memory Channel、 JDBC Chanel、 File Channel等。
3）Sink： Flume Sink取出Channel中的数据，进行相应的存储文件系统，数据库，或者提交到远程服务器。包括HDFS sink、 Logger sink、 Avro sink、 File Roll sink、 Null sink、 HBasesink等。
执行顺序
1、Source
　　Spool Source 如何使用？
　　在实际使用的过程中，可以结合log4j使用，使用log4j的时候，将log4j的文件分割机制设为1分钟一次，将文件拷贝到spool的监控目录。 log4j有一个TimeRolling的插件，可以把log4j分割的文件到spool目录。基本实现了实时的监控。 Flume在传完文件之后，将会修改文件的后缀，变为.COMPLETED（后缀也可以在配置文件中灵活指定）
Exec Source 和Spool Source 比较
　　1） ExecSource可以实现对日志的实时收集，但是存在Flume不运行或者指令执行出错时，将无法收集到日志数据，无法何证日志数据的完整性。
　　2） SpoolSource虽然无法实现实时的收集数据，但是可以使用以分钟的方式分割文件，趋近于实时。
　　3）总结：如果应用无法实现以分钟切割日志文件的话，可以两种收集方式结合使用。

2、Channel
　　1）MemoryChannel可以实现高速的吞吐，但是无法保证数据完整性
　　2）MemoryRecoverChannel在官方文档的建议上已经建义使用FileChannel来替换。
　　　　FileChannel保证数据的完整性与一致性。建议FileChannel设置的目录和程序日志文件保存的目录设成不同的磁盘，以便提高效率。

3、Sink
　　Flume Sink在设置存储数据时，可以向文件系统中，数据库中， hadoop中储数据，在日志数据较少时，可以将数据存储在文件系统中，并且设定一定的时间间隔保存数据。在日志数据较多时，可以将相应的日志数据存储到Hadoop中，便于日后进行相应的数据分析。

完美明天cxp

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flume核心组件

Flume主要由3个重要的组件构成：Source、Channel、Sink1）Source：完成对日志数据的收集，分成transtion 和 event 打入到channel之中，Flume提供了各种source的实现，包括Avro Source、 Exce Source、 Spooling、Directory Source、 NetCat Source、 Syslog Source、 Sys...
复制链接

扫一扫

专栏目录