Flume 日志采集分享

最新推荐文章于 2024-04-12 21:01:24 发布

常识的Blog

最新推荐文章于 2024-04-12 21:01:24 发布

阅读量235

点赞数

本文链接：https://blog.csdn.net/weixin_39098944/article/details/108395597

版权

Apache Flume 是一个分布式、可靠、高可用的日志采集系统，常用于将大量日志数据从各种来源集中到存储系统如HDFS、HBase等。Flume由Source、Channel和Sink三个组件构成，具有灵活的配置和扩展能力，支持多种数据源和数据输出。本文介绍了Flume的基本概念、原理、结构图以及实战案例，展示了如何配置和使用Flume进行日志采集。

摘要由CSDN通过智能技术生成

前言

在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：

在这里插入图片描述

flume是由cloudera软件公司产出的可分布式日志收集系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出，特别是flume-ng;同时flume内部的各种组件不断丰富，用户在开发的过程中使用的便利性得到很大的改善，现已成为apache
top项目之一.

什么是Flume

pache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。其结构如下图所示：

在这里插入图片描述

Flume特性

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中
一般的采集需求，通过对flume的简单配置即可实现
Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

Flume原理

Flume组件详解
在这里插入图片描述

Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成
每一个agent相当于一个数据(被封装成Event对象)传递员，内部有三个组件：Source：采集组件，用于跟数据源对接，以获取数据Sink：下沉组件，用于往下一级agent传递数据或者往最终存储系统传递数据Channel：传输通道组件，用于从source将数据传递到sink

在这里插入图片描述

首先来看一下flume官网中对Event的定义
在这里插入图片描述
一行文本内容会被反序列化成一个event(序列化是将对象状态转换为可保持或传输的格式的过程。与序列化相对的是反序列化，它将流转换为对象。这两个过程结合起来，可以轻松地存储和传输数据)，event的最大定义为2048字节，超过，则会切割，剩下的会被放到下一个event中，默认编码是UTF-8。

Flume采集结构图

单个agent采集数据

在这里插入图片描述
复杂结构

多级agent之间串联
在这里插入图片描述

Flume实战案例

Flume的安装部署

1.Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境

上传安装包到数据源所在节点上

然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz

最低0.47元/天解锁文章

常识的Blog

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flume 日志采集分享

前言在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：flume是由cloudera软件公司产出的可分布式日志收集系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出，特别是flume-ng;同时flume内部的各种组件不断丰富，用户在开发的过
复制链接

扫一扫