-
1.数据采集
-
2数据存储
-
3.数据清洗
-
4.数据分析
-
5.数据展示
Fume是一种分布式的,可靠的、高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据横型,允许在线分析应用程序。
flume 最开始是由cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。但随着flume功能的扩展,flume的代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点渐渐暴露出来,尤其是在发行版本0.9.4中,日志传输不稳定的现象尤为严重。
为了解决这些问题,2011年10月22号,cloudera对Flume进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,并将Fume纳入apache旗下,从cloudera Flume改名为Apache Flume,
版本区别
为了与之前版本区分开,重构后的版本统称为Flume NG (next generation),重构前的版本被统称为Flume OG (original generation) , Flume目前只有Linux系统的启动脚本。没有Windows环境的启动脚本。
Fume运行的核心是Agent。Fune是以lagent为最小的独立运行单位。一个agent就是一个VM。它是一个完整的数据收集工具,含有三个核心组件,分别是source,channel、sink通过这些组件, Event可以从一个地方流向另一个地方。如下图所示:
组件及其作用
- Client:
客户端,Client生产数据,运行在一个独立的线程中
- Event:
一个数据单元,消息头和消息体组成。(Events可以是日志记录、 avro 对象等。)
- Flow:
Event从源点到达目的点的迁移的抽象。
- Agent:
一个独立的Flume进程,运行在JVM中,包含组件Source、Channel、Sink。每台机器运行一个agent,但是一个agent中可以包含多个sources和sinks。
- Source:
最后
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Android开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!
如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
😕/bbs.csdn.net/topics/618164986)
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!