大数据学习:Flume组件入门简介

在大数据系统平台的运行当中,对于日志的收集和传输,往往由Flume组件来负责,基于分布式系统,执行日志收集任务。今天的大数据学习分享,我们就主要来讲讲Flume组件入门基础。

Flume组件的诞生,最初来自cloudera软件公司,在2009年被捐赠给了Apache基金会,成为Hadoop生态圈的重要组件之一,也是Apache的顶级项目之一。
 

大数据学习:Flume组件入门简介


Flume简介

Flume定义,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输系统。在大数据平台当中,负责收集例如日志,事件等数据资源,并且将这些数量庞大的数据从各项数据资源中集中起来存储。

支持在日志系统中定制各类数据发送方,用以采集数据,也提供对数据进行简单处理,并写到各种数据接收方的能力。简单来说:Flume是实时采集日志的数据采集引擎。将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。

Flume应用场景

在实际开发当中, Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据源。

Flume优势

Flume可以将应用产生的数据存储到任何集中存储器中,比如HDFS,Hbase。

当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供一共平稳的数据。

Flume的管道是基于事务,保证了数据在传送和接收时的一致性。

Flume具备可靠性,高容错性,可升级,可定制,易管理。

支持各种接入资源数据的类型以及接出数据类型。

支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等。

关于大数据学习,Flume组件入门简介,以上就为大家做了简单的介绍了。在大数据技术生态当中,Flume作为日志收集系统,也常常与Kafka配合,共同完成平台当中的各项数据采集需求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值