Cloudera Flume 使用指南

龙琴允

于 2024-08-24 08:02:48 发布

阅读量597

点赞数 24

本文链接：https://blog.csdn.net/gitblog_00985/article/details/141483695

版权

Cloudera Flume 使用指南

flumecloudera/flume: 是 Cloudera 开源的数据传输工具，可以用于大规模数据传输和集成。适合对大数据、数据传输和想要实现大规模数据处理的开发者。项目地址:https://gitcode.com/gh_mirrors/flum/flume

Cloudera Flume 是一个高可用的、高可靠的、分布式的系统用于收集、聚合和移动大量日志数据。它有一个简单而灵活的架构，基于流式处理的数据流动模型。本指南旨在提供对Flume项目结构、启动文件以及配置文件的详尽介绍。

1. 项目目录结构及介绍

Flume的GitHub仓库遵循了典型的Java项目结构。以下是主要组成部分的概述：

├── CHANGELOG.md          - 记录版本更迭的详细变化。
├── CONTRIBUTING.md       - 贡献者指南，指导如何参与项目贡献。
├── LICENSE               - 项目授权许可文件，说明软件使用的版权条款。
├── NOTICE                - 根据Apache许可证要求的通知文件。
├── README.md             - 主要的读我文件，提供快速项目概览。
├── flume-src             - 源代码主体目录。
│   ├── contrib           - 辅助工具或额外组件。
│   ├── examples          - 示例配置和使用示例。
│   ├── lib               - Flume依赖的库文件。
│   ├── src               - 核心源码目录，包括agent的实现等。
│   └── ...
├── pom.xml               - Maven项目对象模型文件，管理项目构建过程。
├── scripts               - 启动脚本和其他实用程序脚本。
└── ...

重要目录说明:

flume-src/src/main: 包含Flume的核心源代码。
flume-src/examples: 提供运行Flume实例的示例配置。
scripts: 包含用于启动和管理Flume的脚本。

2. 项目的启动文件介绍

Flume的启动通常通过脚本来完成，位于scripts目录下。核心的启动脚本是flume-ng，它允许以命令行的方式配置并启动Flume agent。例如，你可以使用以下命令启动一个简单的agent:

bin/flume-ng agent --name a1 -f path/to/config.properties

这里的a1是agent的名称，-f参数指定了配置文件的路径。启动脚本简化了agent的配置和管理流程。

3. 项目的配置文件介绍

配置文件是Flume的运作核心，它们定义了agent的行为。这些文件通常命名为.properties，位于examples/configs/或其他自定义位置。一个基础的配置文件可能包含以下关键部分：

Agent定义: 指定agent的名字，如agent.name=a1。
Sources: 定义数据来源，例如a1.sources=r1, 其中r1是source的名称，可以是类型为netcat、exec等。
Channels: 数据缓冲区，确保源到目的地的数据流动，例如a1.channels=c1，并配置其类型（通常是memory、file等）。
Sinks: 数据的目的地，如HDFS、logger等，a1.sinks=k1，接着指定sink的具体配置。
Channel Bindings: 将sources和sinks绑定到同一channel，如a1.sources.r1.channels=c1, a1.sinks.k1.channel=c1。