Apache Flume
文章平均质量分 73
Apache Flume
不死鸟.亚历山大.狼崽子
太极计算机股份有限公司系统架构师,从事ios、.net、flex、java等开发
展开
-
Apache Flume(5):多个agent模型
可以将多个Flume agent 程序连接在一起,其中一个agent的sink将数据发送到另一个agent的source。Avro文件格式是使用Flume通过网络发送数据的标准方法。第一个agent从Netcat接收数据,增加一个channel和sink,将这个sink发送到第二个agent。第二个agent在监控文件变化的同时监控从sink发送来的事件,最终输出到控制台。使用Avro Sink,必须设置以下属性。将前面两个示例组合应用。原创 2023-12-18 00:23:13 · 1017 阅读 · 0 评论 -
Apache Flume(4):日志文件监控
企业中应用程序部署后会将日志写入到文件中,可以使用Flume从各个日志文件将日志收集到日志中心以便于查找和分析。但是以上方法有重复消费的问题,每次启动都会全量读取log文件里的全部数据,下面我们解决重复消费问题。Exec Source通过指定命令监控文件的变化,加粗属性为必须设置的。可以查看agent控制台接收到了最新的日志。添加配置文件exec-log.conf。原创 2023-12-15 17:39:52 · 867 阅读 · 0 评论 -
Apache Flume(3):数据持久化
为了方便日志打印,可以将-Dflume.root.logger=INFO,console添加在conf的环境配置中,从模板复制一份配置。通过Netcat发送数据,,此时发送到c2的数据没有被消费,关闭Flume,修改配置文件。添加配置文件file-channel.conf,添加一个FileChannel。重启Flume,可以看到会重新消费c2的数据。原创 2023-12-14 16:06:48 · 489 阅读 · 0 评论 -
Apache Flume(2): Flume简单案例
采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到 HDFS 中去根据需求,首先定义以下 3 大要素采集源,即source——监控文件目录 : spooldir 下沉目标,即sink——HDFS文件系统 : hdfs sink source和sink之间的传递通道——channel,可用file channel也可以用内存channel# Name the components on this agenta1.sources = r1a1.s..原创 2021-07-04 02:06:10 · 301 阅读 · 0 评论 -
Apache Flume(1):Apache Flume原理
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。Flume支持定制各类数据发送方,用于收集各类型数据;同时,Flume支持定制各种数据接受方,用于最终存储数据。原创 2021-06-30 23:58:28 · 331 阅读 · 3 评论 -
Apache Flume安装部署
https://www.apache.org/dyn/closer.lua/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz# 定义这个 agent 中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1# 描述和配置 source 组件:r1a1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 4..原创 2021-06-30 00:47:54 · 275 阅读 · 0 评论