Hadoop生态系统之Flume

Flume概念(数据实时采集)

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统

Flume版本更迭

老版本:flume-og 需要zookeeper的支持
新版本:flume-ng 不需要zookeeper的支持(本文说的都是新版本的)

Flume结构(核心为Agent)

在这里插入图片描述

完整工作流程

在这里插入图片描述
这种机制保证了数据传输的可靠与安全

核心(event)

本身是一个字节数组,可携带headers信息,是事务的基本单位,如果是文本文件,通常为一行记录,flume处理日志时流动的是event

组件剖析

source

职能:
专门从网络收集数据
可处理类型:
avro thrift exec jms spooling directory netcat sequence
generator syslog http legacy 甚至自定义

channel

职能:
存放的临时数据,缓存
可存放地点:
内存(memory),jdbc,磁盘(file)

sink

职能:
将数据发往目的地的组件
目的地类型:
hdfs,logger(控制台),avro,thrift,ipc,flie,hbase,solr,自定义

Interceptor(chain 责任链形式)

职能:
用于在Source与channel之间的数据包装或者数据清洗

Selector

职能:
选择器可以工作在在复制,路由模式下

Process

职能:
指定sink传递给下一个(或者多个)Agent的传递策略

组件配置(可配置项过多,可以自行百度,只贴基本配置)

1.基础配置(配置conf文件)

1)配置Agent的组件
a1.sources=r1
a1.channels=c1(可配置多个通道 以空格隔开)
a1.sinks=s1(可配置多个 以空格隔开)
(其中a1,r1,c1,s1都可以随意定义)
2)配置Channel绑定source与sink
a1.sources.r1.channels=c1(可对应多个通道 以空格隔开)
a1.sinks.s1.channel=c1(一个通道对应一个sink)
3)配置source
4)配置channel
5)配置sink

2.特定组件具体配置
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值