[flume]日志采集系统——学习笔记(一)——Flume概述

1.Flume日志采集系统

Flume原是Cloudera公司提供的一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统,而后纳入到了Apache旗下,作为一个顶级开源项目。Apache Flume不仅只限于日志数据的采集,由于Flume采集的数据源是可定制的,因此Flume还可用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。

1.1. Flume运行机制

Flume的核心是把数据从数据源(例如Web服务器)通过数据采集器(Source)收集过来,再将收集的数据通过缓冲通道(Channel)汇集到指定的接收器(Sink)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VhRVlAhU-1608389753829)(K:[大三上]大数据处理技术\笔记\第8章Flume日志采集系统\image\1608388203603.png)]

​ Flume基本架构中有一个Agent(代理),它是Flume的核心角色,Flume Agent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件:Source、Channel和Sink。

三个核心组件的较少

Source(数据采集器)

用于源数据的采集, 然后将采集的数据通过channel流向sink。

Source将数据封装到事件(event)里, 然后传入Channel中, 如下图所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-trk3qrqX-1608389753831)(K:[大三上]大数据处理技术\笔记\第8章Flume日志采集系统\image\1608388701447.png)]


Channel(缓冲管道)

用于连接source和sink。底层是一个缓冲队列,对Source中的数据进行缓冲, 然后传入到sink中。


Sink(接收器)

接收并汇集l流入sink的数据,根据需求,可以将其集中存储(如存入HDFS)或者作为数据源传入其他服务器或Source中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LmqSHSVl-1608389753832)(K:[大三上]大数据处理技术\笔记\第8章Flume日志采集系统\image\1608388999210.png)]

1.2.Flume日志采集系统结构

  • 简单结构

1.2.Flume日志采集系统结构

  • 简单结构
  • 复杂结构
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值