flume
大霖技术进阶
Keep Study,Keep Coding
展开
-
20分钟 玩转Flume
### Apache Flume - 概述 - flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程,或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。 - 核心组件 - source :用于对接各个不同的数据源 - sink:用于对接各个不同存储数据的目的地(数据下沉地) - channel:用于中间临时存储缓存数据 - 运行机制 - flume本身是java程序 在需要采集数据机器上启动 ----->agent原创 2021-04-25 10:32:00 · 133 阅读 · 1 评论 -
flume采集目录到 HDFS
采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现, 就需要把文件采集到 HDFS 中去 根据需求,首先定义以下 3 大要素 采集源,即 source——监控文件目录 : spooldir 下沉目标,即 sink——HDFS 文件系统 : hdfs sink source 和 sink 之间的传递通道——channel,可用 file channel 也可以用 内存 channel 配置文件编写: # Name the components on this a原创 2021-04-25 00:05:46 · 331 阅读 · 1 评论 -
Flume监控文件采集文件到 HDFS
采集需求:比如业务系统使用 log4j 生成的日志,日志内容不断增加,需要把追 加到日志文件中的数据实时采集到 hdfs 根据需求,首先定义以下 3 大要素 采集源,即 source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标,即 sink——HDFS 文件系统 : hdfs sink Source 和 sink 之间的传递通道——channel,可用 file channel 也可以用 内存 channel 配置文件编写: # Nam原创 2021-04-25 00:02:56 · 305 阅读 · 0 评论