Flume的基础技术理论

最新推荐文章于 2022-09-26 19:55:36 发布

郝少

最新推荐文章于 2022-09-26 19:55:36 发布

阅读量358

点赞数 1

分类专栏： # Flume 大数据文章标签： flume flume基础理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hyj_king/article/details/105675173

版权

大数据同时被 2 个专栏收录

161 篇文章 5 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一、flume介绍

1、Flume 最早是Cludera提供的日志收集系统，后贡献给Apache;

2、Flume 是一个分布式的海量日志采集，聚合，转移工具;

3、Flume的开发语言为java;

4、Flume的工作流程：source不断的接收数据，将数据封装成一个一个的event，然后将event发送给channel，chanel作为一个缓冲区会临时存放这些event数据，随后sink会将channel中的event数据发送到指定的地方—-例如HDFS等；

二、Flume的数据流模型

1、event事件

(1)event将传输的数据进行封装，是flume传输数据的基本单位,如果是文本文件，通常是一行记录，event也是事务的基本单位;

(2)event从source，流向channel，再到sink，本身为一个字节数组，并可携带headers(头信息)信息;

(3)event代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去;

(4)一个完整的event包括：event headers、event body、event信息(即文本文件中的单行记录)，如下所示：

2、Source

source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义；

3、Channel

用于桥接Sources和Sinks，类似于一个队列。source组件把数据收集来以后，临时存放在channel中，即channel组件在agent中是专门用来存放临时数据的——对采集到的数据进行简单的缓存，可以存放在memory、jdbc、file等等；

4、Sink

从Channel 中读取并移除event，把数据发送到目的地的组件，目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义;

5、agent

(1)flume运行的核心就是agent，agent本身是一个Java进程。

(2)agent 里面包含3个核心的组件：source—->channel—–>sink,类似生产者、仓库、消费者的架构;

三、Flume的特性

1、可靠性、安全性

只有在sink将channel中的数据成功发送出去之后，channel才会将临时event数据进行删除，这种机制保证了数据传输的可靠性与安全性。

2、可恢复性

通道可以以内存或文件的方式实现，内存更快，但不可恢复。文件较慢但提供了可恢复性。

四、Flume的采集系统机构图

1、多个Agent

2、多个sink的数据接入到一个source中

3、一个Source的数据放到多个Channel中，每个Channel对应的Sink有不同的数据落地

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flume的基础技术理论

一、flume介绍1、Flume 最早是Cludera提供的日志收集系统，后贡献给Apache;2、Flume 是一个分布式的海量日志采集，聚合，转移工具;3、Flume的开发语言为java;4、Flume的工作流程：source不断的接收数据，将数据封装成一个一个的event，然后将event发送给channel，chanel作为一个缓冲区会临时存放这些event数据，随后sin...
复制链接

扫一扫

专栏目录

郝少

CSDN认证博客专家 CSDN认证企业博客

码龄8年

大数据领域优质创作者

319: 原创

3993: 周排名

55万+: 总排名

59万+: 访问

: 等级

6181: 积分

2万+: 粉丝

365: 获赞

83: 评论

1454: 收藏

私信

关注

热门文章

分类专栏

最新评论

hive执行count(*):Stage-1 map = 0%, reduce = 0%
cleargy: yarn资源充足的情况下，stage map 0% 呢？
bootStrap-table之传参问题
取名和娶媳妇一样难: 大哥给看看哪里出现的问题为啥我用[code=java] [/code]@RequestMapping("selectCompleteOrder.do") @ResponseBody public String selectCompleteOrder(HttpServletRequest request){ String user_name = request.getParameter("user_name"); String user_level = request.getParameter("user_level"); System.out.println("selectCompleteOrderList接收到的参数="+user_name+user_level); return ""; } 这样接收不报错了，但是接收到的还是null呢 selectCompleteOrderList接收到的参数=nullnull
bootStrap-table之传参问题
取名和娶媳妇一样难: 我后台说他告诉我[org.springframework.web.bind解决。MissingServletRequestParameterException:方法参数类型的所需请求参数'user_name'不存在][code=java]@RequestMapping("selectCompleteOrder.do") @ResponseBody public String selectCompleteOrder(@RequestParam("user_level")String user_level,@RequestParam("user_name")String user_name){ System.out.println("selectCompleteOrderList接收到的参数="+user_name+user_level); return ""; } [/code] 请问我这到底是哪里出现了问题
redis模糊查询keys和scan的比较和用法
qq_40607754: 这里要纠正博主一个错误，“count 每次迭代所返回的元素数量”这句话是不对的。count是每次扫描的值，count 100表示扫描100个值，但返回的元素数量是不确定的
springBoot+mybatis+多数据源（oracle+mysql）
yuanzikang: 出现 HikariDataSource(null)问题怎么处理

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

郝少 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。