flume 总结:日常数据采集中配置文件

1. flume简介

  flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。

1.1 工作流程

  flume的结构主要分为三部分:source、channel以及sink.其中source为源头,负责采集日志;channel为通道,负责传输和暂时储存;sink为目的地,将采集到的日志保存起来。在真正日志采集的过程中,根据待采集日志的类型以及存储需求,选择相应的类型的source、channel和sink进行配置,从而将日志采集并且保存起来。

1.2 核心概念

  1. Agent使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。
  2. Client生产数据,运行在一个独立的线程。
  3. Source从Client收集数据,传递给Channel。
  4. Sink从Channel收集数据,运行在一个独立线程。
  5. Channel连接 sources 和 sinks ,这个有点像一个队列。
  6. Events可以是日志记录、 avro 对象等。

1.3 数据类型

  flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组合方式基于用户设置的配置文件,非常灵活。比如:Channel可以把事件暂存在内存里,也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase,甚至是另外一个Source等等。Flume支持用户建立多级流,也就是说,多个agent可以协同工作,并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes,这也正是NB之处。

2. flume下载安装

2.1 下载

  一般都是在清华大学开源软件镜像站下载,当然也可以去官网下载。
flume1.8.0 点击下载

2.2 安装

  将下载好的安装包上传并解压,如果嫌每次启动麻烦可以将flume安装包/bin配置到环境变量。
安装完毕。

3. 配置文件

  首先,查看官网给的文档(点击查看),根据自己的需求,去更改配置。

3.1 常见的source

3.1.1 avro source

  avro source:可以监听和收集指定端口的日志,供级联agent的下一跳收集和接受日志,使用avro的source需要说明被监听的主机ip和端口号。

agent1.sources = r1
#描述source
agent1.sources.r1.type = avro  (类型为avro source)
agent1.sources.r1.bind = 0.0.0.0 (指定监听的主机ip.本机是0.0.0.0.)
agent1.sources.r1.port = 4141 (指定监听的端口号)

3.1.2 exec source

  exec source:可以通过指定的操作对日志进行读取,使用exec时需要指定shell命令,对日志进行读。

agent1.source = r2
#描述source
agent1.sources.r2.type = exec 
agent1.sources.r2.command =tail -F /root/flume/log/event.txt (监听的文件的路径)

3.1.3 spooling-directory source

  spooling-directory source:可以读取文件夹里的日志,使用时指定一个文件夹,可以读取该文件夹中的所有文件,当出现新文件时会读取该文件并获取数据.需要注意的是该文件夹中的文件在读取过程中不能修改,同时文件名也不能修改,也不具有监控子目录的功能。

agent1.sources = r3
#描述source
agent1.sources.r3.type = spooldir
agent1.sources.r3.spoolDir = /root/flume/log  (监听的文件目录)
agent1.sources.r3.fileHeader = true (在event的Header中添加文件名)

3.2 常见的channel

3.2.1 memory channel

agent1.channels = c1
agent1.channels.c1.type = memory
agent1.channels.c1.capacity = 100000 (event条数)
agent1.channels.c1.transactionCapacity = 10000 (flume事务控制所需要的缓存容量10000条event)

3.3 常见的sink

3.3.1 logger sink

  logger sink:将收集到的日志写到flume的log中。

3.3.2 avro sink

  avro sink:可以将接受到的日志发送到指定端口,供级联agent的下一跳收集和接受日志,使用时需要指定目的ip和端口。

agent1.sinks = k1
agent1.sinks.k1.type = avro
agent1.sinks.k1.hostname = 0.0.0.0
agent1.sinks.k1
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值