Flume 海量日志收集利器

本文详细介绍了Flume,一个用于海量日志收集、聚合和传输的高可用系统。它包括Flume的基本概念、组成、安装配置、工作原理及常见应用场景。Flume适用于离线和实时日志收集,支持多种数据源和目标,如HDFS和Kafka,确保数据的可靠传输。此外,文章还分享了Flume与其他日志采集系统的比较以及实践经验。
摘要由CSDN通过智能技术生成

Flume 海量日志收集利器

关于日志收集

服务器日志收集

  • 服务器日志是大数据系统中最主要的数据来源之一
  • 服务器日志可能包含的信息
    • 访问信息
    • 系统信息
    • 其他业务信息
  • 基于服务器日志的应用
    • 业务仪表盘:PV、UV等
    • 线上查错:错误日志查询
    • 系统监控:调用链、接口访问统计等
    • 其他数据应用
  • 服务器日志的特点:
    • 不间断,流式产生
    • 数据量大,信息量大
    • 源头分散

日志采集系统的一般架构

在这里插入图片描述

日志采集系统的设计要求

  • 系统可用性:采集系统自身的健壮性
  • 可扩展性:可以随着应用系统的规模及数据量的增加而线性扩展
  • 可靠性:不会丢失数据
  • 灵活性:支持多种数据源;支持多种处理方式;支持多种采集目的地;支持对数据的预处理

Flume简介

是什么?

  一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Cloudera公司出品。

角色

在这里插入图片描述

版本

  1. Flume OG(original generation,2009年7月):分布式日志收集系统,有Master概念,依赖于Zookeeper,分为agent,collector,storage三种角色
  2. Flume NG(next generation,2011年10月):代码重构,功能精简,去掉master,collector角色,专注数据的收集与传递

Flume组成、安装与配置

组成

在这里插入图片描述Flume Flow

  • Flow: 数据采集流程
  • Event: 消息处理的最小单位, 带有一个可选的消息头。实际中event粒度一般较小,降低消息传送失败的成本。 大小由source端决定。
  • Agent: 一个独立的Flume进程,包含组件Source、 Channel、 Sink
  • Source: 以event为单位接收信息,并确保信息被推送(push)到channel
  • Channel: 缓存信息, 确
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值