Flume架构介绍

Flume架构介绍

  1. Flume概念

    ​ 分布式的日志收集系统,将服务器中的数据收集起来送到指定的地方去,比如说hdfs

    这里写图片描述

  2. Event概念

    ​ flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume再删除自己缓存的数据。

    ​ 在整个数据的传输的过程中,流动的是event,即事务保证是在event级别进行的。那么什么是event呢?—–event将传输的数据进行封装,是flume传输数据的基本单位,如果是文本文件,通常是一行记录。event也是事务的基本单位。event从source,流向channel,再到sink,本身为一个字节数组,并可携带headers(头信息)信息。event代表着一个数据的最小完整单元,从外部数据源来,向外部的目的地去。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flume是一款分布式、可靠且可扩展的数据收集系统,由LinkedIn开发,主要用于日志收集和数据传输。其基础架构主要包括以下几个关键组件: 1. **Source(源)**:Flume的源头,负责从各种源(如日志文件、HTTP请求、JMX监控等)获取数据。常见的源有FileSource(文件)、SocketSource(网络监听)和JMSSource(消息队列)。 2. **Channel(通道)**:数据从源到达目的地的中转站。Flume提供了几种类型的通道,比如Memory Channel(内存缓冲)、File Channel(持久化到文件)和 JDBC Channel(将数据发送到数据库)。它们用于临时存储数据直到被Sink消费。 3. **Sink(sink)**:数据最终的目的地,可以是HDFS、HBase、Solr、Kafka、Graphite等。每个Sink负责将数据写入指定的目标存储或处理系统。 4. **Agent(代理)**:Flume的核心执行单元,由一个或多个Source、Channel和Sink组成。每个Agent是独立运行的,但它们可以被配置成并行或串联执行,形成一个数据管道。 5. **Configuration(配置)**:Flume的运行依赖于配置文件,定义了各个组件之间的连接和参数设置。这些配置文件通常包含Source、Channel和Sink的类型、位置以及数据传递的策略。 6. **Sinks和Sources的关系**:数据从Source开始,通过Channel进行缓存和路由,然后进入相应的Sink。这种灵活的架构使得Flume能够适应多种数据处理场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值