Flume日志采集系统

最新推荐文章于 2024-09-04 20:48:11 发布

小刘同学

最新推荐文章于 2024-09-04 20:48:11 发布

阅读量598

点赞数 6

文章标签： flume 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68533987/article/details/141756046

版权

Flume简介

Flume是一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统。

Apache Flume不仅只限于日志数据的采集，由于Flume采集的数据源是可定制的，因此Flume还可用于传输大量事件数据，包括但不限于网络流量数据，社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。

Flume运行机制

Flume的核心是把数据从数据源（如Web Server）通过数据采集器（Source）收集过来，再将收集的数据通过缓冲通道（Channel）汇集到指定的接收器（Sink）。

Flume基本架构中有一个Agent（代理），它是Flume的核心角色，Flume Agent是一个JVM进程，它承载着数据从外部源流向下一个目标的3个核心组件：Source、Channel和Sink。

Source（数据采集器）：用于源数据的采集（从一个Web服务器采集源数据），然后将采集到的数据写入到Channel中并流向Sink。

Channel（缓冲通道）：底层是一个缓冲队列，对Source中的数据进行缓存，将数据高效、准确地写入Sink，待数据全部到达Sink后，Flume就会删除缓存通道中的数据。

Sink（接收器）：接收并汇集流向Sink的所有数据，根据需求，可以直接进行集中式存储（如采用HDFS进行存储），也可以继续作为数据源传入其他远程服务器或者Source中。

Flume安装配置

1、flume下载地址（选择所需的版本进行下载）

Index of /dist/flume (apache.org)https://archive.apache.org/dist/flume/

2、将下载的安装包上传到虚拟机

3、将安装包进行解压（根据自己版本

tar zxvf apache-flume-1.8.0-bin.tar.gz

4、重命名为flume

5、配置

5.1）flume-env.sh配置

进入flume的目录中conf目录下的flume-env.sh系统环境配置文件，在里面配置Flume所依赖的JAVA_HOME。

在conf目录中默认没有该文件，需要先“cp flume-env.sh.template flume-env.sh”,然后打开flume-env.sh文件配置JAVA_HOME

1 cp flume-env.sh.template flume-env.sh

2 vim flume-env.sh

3 在文件中添加：export JAVA_HOME = /jdk的路径

4 保存退出

5.2）Flume系统环境变量配置

1 vim /etc/profile

2 添加以下内容：

export FLUME_HOME = /flume的路径

export PATH = $ PATH:$FLUME_HOME/bin

3 保存退出

4 刷新配置文件： source /etc/profile

Flume入门使用

1.配置Flume采集方案

因为Flume要采集数据的类型和源头多种多样，并且根据开发需求还要进行不同类型的数据传输和汇总。

为此，根据实际业务需求，Flume专门设计了匹配不同数据类型和传输要求的Flume Source、Flume Channel 和 Flume Sink。

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Flume日志采集系统

Flume是一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统。Apache Flume不仅只限于日志数据的采集，由于Flume采集的数据源是可定制的，因此Flume还可用于传输大量事件数据，包括但不限于网络流量数据，社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。
复制链接

扫一扫

小刘同学 CSDN认证博客专家 CSDN认证企业博客

码龄2年

16: 原创

120万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

308: 积分

119: 粉丝

145: 获赞

5: 评论

128: 收藏

私信

关注

热门文章

分类专栏

电商数仓 4篇
Hadoop 3篇

最新评论

Hadoop集群启动后缺少进程问题
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hadoop集群启动的四种方式
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hadoop集群启动后缺少进程问题
CSDN-Ada助手: 恭喜您写了第四篇博客！对于Hadoop集群启动后缺少进程问题的解决方案，我觉得您提供了很有价值的内容。接下来，我建议您可以深入研究Hadoop集群的其他常见问题，并分享更多实用的解决方案给读者，让大家受益更多。期待您的下一篇博客！祝您创作顺利！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Hadoop集群启动的四种方式
CSDN-Ada助手: 恭喜用户写了第三篇博客！这篇关于"Hadoop集群启动的三种方式"的文章非常有启发性，让我对Hadoop集群启动有了更深入的了解。希望用户能继续坚持写作，分享更多有价值的知识。下一步，可以考虑深入探讨Hadoop集群的优化策略或者应用案例，这样读者们也能从中受益更多。期待用户的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
HDFS和YARN概述
CSDN-Ada助手: 非常棒的博客！很高兴看到你对HDFS和YARN有着清晰的概念。继续保持写作的热情！除了这些基本概念外，你可能还对Hadoop生态系统中的其他组件和工具感兴趣，比如MapReduce、Hive、Spark等。深入了解这些内容可以帮助你更全面地掌握大数据处理和分析的知识。期待看到你未来更多精彩的文章！继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。