Flume 海量日志收集利器

最新推荐文章于 2024-08-20 01:56:22 发布

JeremyJiaming

最新推荐文章于 2024-08-20 01:56:22 发布

阅读量564

点赞数

分类专栏：大数据文章标签： flume hadoop

本文链接：https://blog.csdn.net/JeremyJiaming/article/details/88068609

版权

本文详细介绍了Flume，一个用于海量日志收集、聚合和传输的高可用系统。它包括Flume的基本概念、组成、安装配置、工作原理及常见应用场景。Flume适用于离线和实时日志收集，支持多种数据源和目标，如HDFS和Kafka，确保数据的可靠传输。此外，文章还分享了Flume与其他日志采集系统的比较以及实践经验。

摘要由CSDN通过智能技术生成

Flume 海量日志收集利器

关于日志收集

服务器日志收集

服务器日志是大数据系统中最主要的数据来源之一
服务器日志可能包含的信息
- 访问信息
- 系统信息
- 其他业务信息
基于服务器日志的应用
- 业务仪表盘：PV、UV等
- 线上查错：错误日志查询
- 系统监控：调用链、接口访问统计等
- 其他数据应用
服务器日志的特点：
- 不间断，流式产生
- 数据量大，信息量大
- 源头分散

日志采集系统的一般架构

在这里插入图片描述

日志采集系统的设计要求

系统可用性：采集系统自身的健壮性
可扩展性：可以随着应用系统的规模及数据量的增加而线性扩展
可靠性：不会丢失数据
灵活性：支持多种数据源；支持多种处理方式；支持多种采集目的地；支持对数据的预处理

Flume简介

是什么？

一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Cloudera公司出品。

角色

在这里插入图片描述

版本

Flume OG（original generation，2009年7月）：分布式日志收集系统，有Master概念，依赖于Zookeeper，分为agent，collector，storage三种角色
Flume NG（next generation，2011年10月）：代码重构，功能精简，去掉master，collector角色，专注数据的收集与传递