flume面经

最新推荐文章于 2024-05-05 10:54:30 发布

February13

最新推荐文章于 2024-05-05 10:54:30 发布

阅读量488

点赞数

文章标签： flume java kafka

本文链接：https://blog.csdn.net/February13/article/details/130937761

版权

1.组成、事务

source-》put-》channel-》take-》sink

source：tirdirSource 支持断点续传

channel：file、mem、kafka（与kafka的兼容性做的非常好，在flume1-》kakfa-》flume2的结构中，flume1使用kafkachannel（相当于kafka的生产者）【减少了sink操作】，kafka在传到flume2【消费者】（kafkachannel、hdfs sink）中）

2.拦截器-Flume拦截器是Flume的一个重要组件，其作用是对事件流进行实时的转换和处理。

项目中主要实现了ETL拦截器（格式和数据是否完整）和日志类型区分拦截器（分发到不同的topic）

自定义拦截器步骤：

一、实现intercept接口

二、1重写initialize方法

2重写intercept方法单个event

3重写intercept方法 list<event>

4重写close（）

三、静态内部类，实现interceptor.Builder，作用是新建当前拦截器类的实例（在Build方法中），传入参数进行构造

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.List;

public class DataFilterInterceptor implements Interceptor {

private List<String> filterWords;

    private DataFilterInterceptor(List<String> filterWords) {
        this.filterWords = filterWords;
    }

    @Override
    public void initialize() {
        // 初始化方法，可以在这里进行一些初始化操作
    }

    @Override
    public Event intercept(Event event) {
        // 获取事件中的原始数据
        String eventData = new String(event.getBody(), StandardCharsets.UTF_8);

        // 检查原始数据中是否包含过滤词汇，如果包含则忽略该事件
        for (String word : filterWords) {
            if (eventData.contains(word)) {
                return null; // 返回null表示忽略该事件
            }
        }

        // 返回处理后的事件
        return event;
    }

    @Override
    public List<Event> intercept(List<Event> events) {
        List<Event> interceptedEvents = new ArrayList<>();

for (Event event : events) {
Event interceptedEvent = intercept(event);

            if (interceptedEvent != null) {
                interceptedEvents.add(interceptedEvent);
            }
        }

return interceptedEvents;
}

    @Override
    public void close() {
        // 关闭方法，可以在这里进行一些清理操作
    }

public static class Builder implements Interceptor.Builder {

private List<String> filterWords;

        @Override
        public Interceptor build() {
            return new DataFilterInterceptor(filterWords);
        }

        @Override
        public void configure(Context context) {
            // 从配置中获取过滤词汇列表
            String filterWordsStr = context.getString("filterWords");
            filterWords = new ArrayList<>();

            // 将逗号分隔的过滤词汇添加到列表中
            for (String word : filterWordsStr.split(",")) {
                filterWords.add(word.trim());
            }
        }
    }
}

3.channel选择器

根据不同的日志主题分发到不同的sink中，主要有两种：1多路复用multipexingCS根据数据类型的不同 2广播分发 replicatingCS

4.监控器

ganglia

日常优化

5.容错机制

5.1.多种类型channel选择，file、mem、kafka、JDBC，其中file、JDBC、kafka都是有可靠性保证，支持持久化到磁盘。

5.2.支持事务-kafka、JDBC channel支持事务，当事件传输过程中出现错误时，可以回滚或重新发送。

5.3.控制channel的大小，确保可以维持高峰时期的运作。

5.4.source、channel、sink的监控

6.flume内存

优化角度4个方面：