flume jvm调优_Flume+Kafka双剑合璧玩转大数据平台日志采集

最新推荐文章于 2021-10-17 10:33:04 发布

weixin_39619451

最新推荐文章于 2021-10-17 10:33:04 发布

阅读量184

点赞数

文章标签： flume jvm调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39619451/article/details/111756716

版权

概述

大数据平台每天会产生大量的日志，处理这些日志需要特定的日志系统。

一般而言，这些系统需要具有以下特征：

构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；

支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；

具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。

为此建议将日志采集分析系统分为如下几个模块：

数据采集模块：负责从各节点上实时采集数据，建议选用Flume-NG来实现。

数据接入模块：由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，建议选用Kafka来实现。

流式计算模块：对采集到的数据进行实时分析，建议选用Storm来实现。

数据输出模块：对分析后的结果持久化,可以使用HDFS、MySQL等。

日志采集选型

大数据平台每天会产生大量的日志，处理这些日志需要特定的日志系统。目前常用的开源日志系统有 Flume 和Kafka两种，都是非常优秀的日志系统，且各有特点。下面我们来逐一认识一下。

Flume组件特点

Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的日志收集系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。

Flume的设计目标

可靠性

Flume的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。Flume 使用事务性的方式保证传送Event整个过程的可靠性。

可扩展性

Flume中只有一个角色Agent，其中包含Source、Sink、Channel三种组件。一个Agent的Sink可以输出到另一个Agent的Source。这样通过配置可以实现多个层次的流配置。

功能可扩展性

Flume自带丰富的Source、Sink、Channel实现。用户也可以根据需要添加自定义的组件实现, 并在配置中使用起来。

Flume的架构

最低0.47元/天解锁文章

weixin_39619451

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
flume jvm调优_Flume+Kafka双剑合璧玩转大数据平台日志采集

概述大数据平台每天会产生大量的日志，处理这些日志需要特定的日志系统。一般而言，这些系统需要具有以下特征：构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。为此建议将日志采集分析系统分为如下几个模块：数据采集模块：负责从各节点上实时采集数据，建议选用Flume-NG来...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。