0503-数仓数据采集

第一章 用户行为数据采集

1.1 Flume采集

在这里插入图片描述

  1. Source
    Taildir Source
    在Flume1.7之前如果想要监控一个文件新增的内容,我们一般采用的source 为 exec tail,但是这会有一个弊端,就是当你的服务器宕机重启后,此时数据读取还是从头开始,这显然不是我们想看到的!
    在Flume1.7没有出来之前我们一般的解决思路为:当读取一条记录后,就把当前的记录的行号记录到一个文件中,宕机重启时,我们可以先从文件中获取到最后一次读取文件的行数,然后继续监控读取下去。保证数据不丢失、不重复。
    在Flume1.7时新增了一个source的类型为taildir,它可以监控一个目录下的多个文件,并且实现了实时读取记录保存的断点续传功能。
    但是Flume1.7中如果文件重命名,那么会被当成新文件而被重新采集。
  2. Channel
    (1) Memory Channel
    Memory Channel把Event保存在内存队列中,该队列能保存的Event数量有最大值上限。由于Event数据都保存在内存中,MemoryChannel有最好的性能,不过也有数据可能会丢失的风险,如果Flume崩溃或者重启,那么保存在Channel中的Event都会丢失。同时由于内存容量有限,当Event数量达到最大值或者内存达到容量上限,MemoryChannel会有数据丢失。
    (2) File Channel
    File Channel把Event保存在本地硬盘中,比Memory Channel提供更好的可靠性和可恢复性,不过要操作本地文件,性能要差一些。
    (3) Kafka Channel
    Kafka Channel把Event保存在Kafka集群中,能提供比File Channel更好的性能和比Memory Channel更高的可靠性。
  3. Sink
    (1) Avro Sink
    Avro Sink是Flume的分层收集机制的重要组成部分。 发送到此接收器的Flume事件变为Avro事件,并发送到配置指定的主机名/端口对。事件将从配置的通道中按照批量配置的批量大小取出。
    (2 )Kafka Sink
    Kafka Sink将会使用FlumeEvent header中的topic和key属性来将event发送给Kafka。如果FlumeEvent的header中有topic属性,那么此event将会发送到header的topic属性指定的topic中。如果FlumeEvent的header中有key属性,此属性将会被用来对此event中的数据指定分区,具有相同key的event将会被划分到相同的分区中,如果key属性null,那么event将会被发送到随机的分区中。可以通过自定义拦截器来设置某个event的header中的key或者topic属性。

1.1.1 Flume拦截器

自定义了连个拦截器:

  1. ETL拦截器: 过滤时间戳不合法和json数据不完整的日志
  2. 日志类型区分拦截器: 将错误日志, 启动日志, 和事件日志区分开来, 方便发往kafka不同的topic
  1. ETL拦截器
package com.lz.flume.interceptor;

import org.apache.commons.lang.math.NumberUtils;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.List;

/**
 * @ClassName LogETLInterceptor
 * @Description: TODO
 * @Author MAlone
 * @Date 2019/12/19
 * @Version V1.0
 **/
public class LogETLInterceptor implements Interceptor {
   
    @Override
    public void initialize() {
   

    }

    @Override
    public Event intercept(Event event) {
   

        String body = new String(event.getBody(), Charset.forName("UTF-8"));

        String[] logArray = body.split("\\|");
        if (logArray.length < 2) {
   
            return null;
        }

        if (logArray[0].length() != 13 || !NumberUtils.isDigits(logArray[0])) {
   
            return null;
        }

        if (!logArray[1].trim().startsWith("{") || !logArray[1].trim().startsWith("}")) {
   
            return null;
        }

        return event;
    }

    @Override
    public List<Event> intercept(List<Event> events) {
   
        ArrayList<Event> eventsToBack = new ArrayList<>();

        for (Event event : events) {
   
            Event eventToBack = intercept(event);
            if (eventToBack != null) {
   
                eventsToBack.add(eventToBack);
            }
        }

        return eventsToBack;
    }

    @Override
    public void close() {
   

    }

    public static class Builder implements Interceptor.Builder {
   
        @Override
        public Interceptor build() {
   
            return new LogETLInterceptor();
        }

        @Override
        public void configure(Context context) {
   

        }
    }

}
  1. 日志类型区分拦截器
package com.lz.flume.interceptor;

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值