【Flume】(二)Flume 定义和基础架构_flhme里基础构架术语的含义(2)

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

一、Flume 定义

Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。

为什么选用 Flume ?
在这里插入图片描述

二、Flume 基础架构

在这里插入图片描述
Agent
Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。
Agent 主要有 3 个部分组成,Source、Channel、Sink

Source
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directorynetcat、sequence generator、syslog、http、legacy。

Sink
Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。
Sink 组件目的地包括 hdfsloggeravro、thrift、ipc、fileHBase、solr、自定义。

Channel
Channel 是位于 Source 和 Sink 之间的缓冲区。因此,Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的,可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。
Flume 自带两种 Channel:Memory ChannelFile Channel 以及 Kafka Channel
Memory Channel 是内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么 Memory Channel 就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel 将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

Event
传输单元,Flume 数据传输的基本单元,以 Event 的形式将数据从源头送至目的地。Event 由 HeaderBody 两部分组成,Header 用来存放该 event 的一些属性,为 K-V 结构,Body 用来存放该条数据,形式为字节数组。

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

  • 25
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flume是一款分布式、可靠且可扩展的数据收集系统,由LinkedIn开发,主要用于日志收集和数据传输。其基础架构主要包括以下几个关键组件: 1. **Source(源)**:Flume的源头,负责从各种源(如日志文件、HTTP请求、JMX监控等)获取数据。常见的源有FileSource(文件)、SocketSource(网络监听)和JMSSource(消息队列)。 2. **Channel(通道)**:数据从源到达目的地的中转站。Flume提供了几种类型的通道,比如Memory Channel(内存缓冲)、File Channel(持久化到文件)和 JDBC Channel(将数据发送到数据库)。它们用于临时存储数据直到被Sink消费。 3. **Sink(sink)**:数据最终的目的地,可以是HDFS、HBase、Solr、Kafka、Graphite等。每个Sink负责将数据写入指定的目标存储或处理系统。 4. **Agent(代理)**:Flume的核心执行单元,由一个或多个Source、Channel和Sink组成。每个Agent是独立运行的,但它们可以被配置成并行或串联执行,形成一个数据管道。 5. **Configuration(配置)**:Flume的运行依赖于配置文件,定义了各个组件之间的连接和参数设置。这些配置文件通常包含Source、Channel和Sink的类型、位置以及数据传递的策略。 6. **Sinks和Sources的关系**:数据从Source开始,通过Channel进行缓存和路由,然后进入相应的Sink。这种灵活的架构使得Flume能够适应多种数据处理场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值