Flume系列一之架构介绍和安装

最新推荐文章于 2024-07-17 16:44:01 发布

留歌留歌

最新推荐文章于 2024-07-17 16:44:01 发布

阅读量1.1k

点赞数

分类专栏：大数据hadoop Lamda架构日志分析流水线文章标签：大数据架构数据框架批处理

本文链接：https://blog.csdn.net/liuge36/article/details/78589505

版权

本文介绍了Flume在大数据日志分析中的作用，它适用于流处理和批处理。Flume由Source、Channel和Sink组成，用于高效收集、聚合和传输日志数据。Event是其传输的基本单位，具备事务性。文章还详细阐述了Flume的安装过程，包括JDK和Flume的下载、解压及环境变量配置。

摘要由CSDN通过智能技术生成

Flume架构介绍和安装

写在前面
在学习一门新的技术之前，我们得知道了解这个东西有什么用？我们可以使用它来做些什么呢？简单来说，flume是大数据日志分析中不能缺少的一个组件，既可以使用在流处理中，也可以使用在数据的批处理中。
1.流处理：
这里写图片描述
2.离线批处理：

分析：不管你是数据的实时流处理，还是数据的离线批处理，都是会使用flume这个日志收集框架来做日志的收集。因此，学习这个这个组件是很重要的。这个组件的使用也是很简单的。

简单介绍一下Flume
Flume是一种分布式的、可靠的、可用的服务，用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调的可靠性机制和许多故障转移和恢复机制，具有健壮性和容错性。它使用一个简单的可扩展的数据模型，允许联机分析应用程序。
一句话总结：Flume就是用来做日志收集的这么一个工具

Flume架构介绍
这里写图片描述
1) Source 收集（从webserver读取数据到Channel中去）