大数据协作框架之Flume

一、Flume概述

       Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。Flume仅仅运行在Linux环境下。

      它是一个基于流式的数据的非常简单的(只需要写一个配置文件)、灵活的架构,它也是一个健壮的、容错的。它用一个简单的扩展数据模型用于在线实时应用分析。它的简单表现为:写个source、channel、sink,之后一条命令就能操作成功了。

       Flume、kafka实时的进行数据收集,spark,storm实时去处理,impala实时去查询。

二、Flume架构

       Flume-ng只有一个角色的节点:agent。Agent由source、channel和sink组成。


三、Event

        Event是Flume数据传输的基本单元。Flume以事件的形式将数据从源头传送到最终的目的地。Event由可选的header和载有数据的一个byte array构成。其中,载有的数据对Flume是不透明的,Header是容纳了key-value字符串的无序集合,key在集合内是唯一的,Header可以在上下文路由中使用扩展。


      Source监控某个文件,将数据拿到,封装在一个event中,并put/commit到channel中,channel是一个队列,队列的有点就是先进先出,放好之后尾部一个个event出来,sink主动去从channel中去拉数据,sink再把数据写到某个地方,比如HDFS上面。

四、Flume的特点

4.1复杂流动性

        Flume允许用户进行多级流动到最终目的地,也允许扇出流(一到多)、扇入流(多到一)的、故障转移和失败处理。

4.2可靠性

        事务性的数据传递,保证了数据的可靠性。

4.3 可恢复性

        通道可以以内存或文件的方式实现,内存更快,但是不可恢复,而文件虽然比较慢但提供了可恢复性。


  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

象在舞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值