Flume

中英汉语词典

已于 2022-07-23 15:57:32 修改

阅读量254

点赞数

于 2022-07-21 22:29:45 首次发布

本文链接：https://blog.csdn.net/qq_36251822/article/details/125916474

版权

大数据专栏收录该内容

9 篇文章 1 订阅

订阅专栏

Flume

组件概述

Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的数据。
在这里插入图片描述

应用场景

过滤器

1.使用过滤器进行初步的ETL
2.修正HDFS存放路径
由于flume默认会用linux系统时间，作为输出到HDFS路径的时间。
如果数据是23:59分产生的。Flume消费kafka里面的数据时，有可能已经是第二天了，那么这部门数据会被发往第二天的HDFS路径。
我们希望的是根据日志里面的实际时间，发往HDFS的路径，所以下面拦截器作用是获取日志中的实际时间。

搭配Kafka

采用Kafka Channel，省去了Sink，提高了效率。KafkaChannel数据存储在Kafka里面，所以数据是存储在磁盘中。
在这里插入图片描述

实时读取本地文件到HDFS

source:exec
sink:hdfs

在这里插入图片描述

实时读取目录文件到HDFS

source:spooldir
sink:hdfs

在这里插入图片描述

事务

在这里插入图片描述

内部原理

在这里插入图片描述

最常用的拓扑结构

这种模式是我们最常见的，也非常实用，日常 web 应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用 flume 的这种组合方式能很好的解决这一问题，每台服务器部署一个 flume 采集日志，传送到一个集中收集日志的flume，再由此 flume 上传到 hdfs、hive、hbase 等，进行日志分析。
在这里插入图片描述