【大数据各平台组件搭建使用精进】flume日志采集-可靠性保证-负载均衡，故障恢复（10）

最新推荐文章于 2023-12-12 20:19:50 发布

星欲冷hx

最新推荐文章于 2023-12-12 20:19:50 发布

阅读量560

点赞数 1

文章标签： hadoop 大数据 flume

本文链接：https://blog.csdn.net/hx1156477702/article/details/127109700

版权

在hadoop02和hadoop03上配置第二级方案

flume环境配置和测试在前两章讲到了，大家可以移步主页

Flume的可靠性保证-负载均衡

配置的采集方案是通过唯一一个Sink作为接收器接收后续需要的数据，但会出现当前Sink故障或数据收集请求量较大的情况，这时单一Sink配置可能就无法保证Flume开发的可靠性。因此，Flume 提供Flume Sink Processors解决上述问题。

Sink处理器允许定义Sink groups，将多个sink分组到一个实体中，Sink处理器就可通过组内多个sink为服务提供负载均衡功能。

搭建并配置flume集群

三台服务器的flume集群：hadoop01、hadoop02、hadoop03

分发hadoop01上的flume文件到hadoop02和hadoop03上

分发环境变量配置文件

环境变量起作用

配置采集方案

查看官方文档的示例

hadoop001上配置第一级采集方案

两级的配置方案

Avro

# Name the components on this agent
# 定义代理的名字a1及各个组件sources、sinks和channels

a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1


#定义组的属性
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = load_balance

定义负载均衡